10月24日消息,據外電報道,OpenAI 的兩位研究人員發表了一篇論文,描述了一種新型模型——具體來說是一種新型的連續時間一致性模型 (sCM)——與傳統擴散模型相比,該模型將人工智能生成圖像、視頻和音頻等多媒體的速度提高了 50 倍,生成圖像只需近十分之一秒,而常規擴散則需要 5 秒以上的時間。
通過引入 sCM,OpenAI 僅通過兩個采樣步驟就實現了相當的樣本質量,提供了一種在不影響質量的情況下加速生成過程的解決方案。
該項創新在arXiv.org 上發表的預同行評審論文和今天發布的博客文章中進行了描述,作者是程璐和楊松,該項創新使這些模型僅需兩步即可生成高質量樣本——比以前需要數百步的基于擴散的模型快得多。
Song 還是OpenAI 研究人員(包括前首席科學家 Ilya Sutskever)于2023 年發表的一篇論文的主要作者,該論文提出了一致性模型的概念,即同一軌跡上的點映射到同一初始點。
雖然擴散模型在生成逼真的圖像、3D 模型、音頻和視頻方面取得了出色的效果,但其采樣效率低下(通常需要數十到數百個連續步驟)使其不太適合實時應用。
從理論上講,該技術可以為 OpenAI 的近實時 AI 圖像生成模型提供基礎。正如 VentureBeat 記者Sean Michael Kerner在我們的內部 Slack 頻道中沉思的那樣,「DALL-E 4 還會遠嗎?」
保持高質量,同時加快采樣速度
傳統的擴散模型需要大量的去噪步驟來生成樣本,導致其速度較慢。
相比之下,sCM 可在一兩步內直接將噪聲轉換為高質量樣本,從而減少了計算成本和時間。
OpenAI 最大的 sCM 模型擁有 15 億個參數,可以在單個 A100 GPU 上僅用 0.11 秒生成一個樣本。
與擴散模型相比,這使得掛鐘時間加快了 50 倍,從而使實時生成 AI 應用更加可行。
使用更少的計算資源達到擴散模型質量
sCM 背后的團隊在 ImageNet 512×512 上訓練了一個連續時間一致性模型,可擴展至 15 億個參數。
即使在這種規模下,該模型仍能保持與最佳擴散模型相媲美的樣本質量,在 ImageNet 512×512 上實現了 1.88 的 Fréchet 初始距離 (FID) 分數。
這使得樣本質量與擴散模型的差異在 10% 以內,而擴散模型需要更多的計算工作量才能獲得類似的結果。
基準測試顯示性能強勁
OpenAI 的新方法已經與其他最先進的生成模型進行了廣泛的對比測試。
通過使用 FID 分數和有效采樣計算來測量樣本質量,研究表明 sCM 能夠以更少的計算開銷提供頂級結果。
雖然以前的快速采樣方法一直受到樣本質量下降或訓練設置復雜的困擾,但 sCM 成功克服了這些挑戰,兼具速度和高保真度。
sCM 的成功還歸功于它能夠隨著從中提煉知識的教師傳播模型按比例擴展。
隨著 sCM 和教師擴散模型規模的擴大,樣本質量的差距進一步縮小,而 sCM 中采樣步驟數的增加會進一步縮小質量差異。
應用和未來用途
sCM 模型的快速采樣和可擴展性為跨多個領域的實時生成 AI 開辟了新的可能性。
從圖像生成到音頻和視頻合成,sCM 為需要快速、高質量輸出的應用程序提供了實用的解決方案。
此外,OpenAI 的研究暗示了進一步系統優化的潛力,可以進一步提高性能,并根據各個行業的特定需求定制這些模型。






京公網安備 11011402013531號