蘋果公司正式發(fā)布了其全新的視頻生成模型 STARFlow-V,該模型在底層技術(shù)上與當前主流的Sora、Veo和Runway等競爭對手完全不同。STARFlow-V 放棄了業(yè)界主流的擴散模型(Diffusion Model),轉(zhuǎn)而采用**“歸一化流”(Normalizing Flow)**技術(shù),旨在解決長視頻片段生成中的穩(wěn)定性和錯誤累積問題。
擴散模型通過多步迭代去除噪聲來生成視頻,而STARFlow-V的核心“歸一化流”技術(shù),則直接學習隨機噪聲和復雜視頻數(shù)據(jù)之間的數(shù)學變換。這一根本性差異帶來了幾大優(yōu)勢:
訓練效率:訓練過程只需一次完成,無需多次小迭代,提高了效率。
生成速度:訓練完成后可直接生成視頻,無需迭代計算,生成速度得到顯著提升。
錯誤減少:減少了逐步生成過程中常見的錯誤。
蘋果表示,STARFlow-V是首個在視覺質(zhì)量和速度上能與擴散模型相媲美的同類技術(shù)。通過并行處理和重用先前幀數(shù)據(jù),其生成五秒視頻的速度比初始版本提高了約15倍。
雙架構(gòu)應對長視頻挑戰(zhàn)生成長序列是當前視頻AI技術(shù)的難題,因逐幀生成容易導致誤差累積。STARFlow-V采用雙架構(gòu)方法來緩解這一問題:
一個組件管理跨幀的時間序列(運動一致性)。
另一個組件優(yōu)化單個幀內(nèi)的細節(jié)(畫面質(zhì)量)。
通過這種設計,STARFlow-V在長達30秒的演示片段中保持了穩(wěn)定性,而競爭對手如NOVA和Self-Forcing在幾秒后便開始出現(xiàn)模糊或色彩失真。
多功能性與性能表現(xiàn)該模型無需修改即可處理多種任務,包括:
文本轉(zhuǎn)視頻(Text-to-Video)。
圖像轉(zhuǎn)視頻(Image-to-Video),將輸入圖像作為起始幀。
視頻編輯,允許用戶添加或刪除對象。
在VBench基準測試中,STARFlow-V獲得了79.7分。雖然落后于Veo3(85.06) 和 HunyuanVideo (83.24) 等頂尖擴散模型,但它明顯優(yōu)于其他自回歸模型,尤其在空間關(guān)系和人體表征方面表現(xiàn)出色。
盡管技術(shù)創(chuàng)新顯著,STARFlow-V仍存在局限:分辨率相對較低(640×480,16幀/秒),且目前無法在標準顯卡上實時使用。
更關(guān)鍵的是,該模型在物理模擬方面存在明顯的缺陷,例如“章魚穿過玻璃”和“石頭憑空出現(xiàn)”等現(xiàn)象。
蘋果承認這些限制,并計劃在未來工作中專注于加快計算速度、縮小模型規(guī)模,以及使用更注重物理精確性的訓練數(shù)據(jù)。相關(guān)代碼已在GitHub上發(fā)布,模型權(quán)重將隨后在Hugging Face上公布。





京公網(wǎng)安備 11011402013531號