作者:周源/華爾街見聞
7月28日,阿里巴巴開源電影級(jí)視頻生成模型通義萬(wàn)相Wan2.2,模型單次可生成5秒的高清視頻。
Wan2.2此次共開源文生視頻(Wan2.2-T2V-A14B)、圖生視頻(Wan2.2-I2V-A14B)和統(tǒng)一視頻生成(Wan2.2-TI2V-5B)三款模型。
其中,文生視頻模型和圖生視頻模型均為業(yè)界首次使用MoE架構(gòu)(混合專家模型:Mixture of Experts),總參數(shù)量為27B,激活參數(shù)量高達(dá)14B,均由高噪聲專家模型和低噪專家模型組成,分別負(fù)責(zé)視頻的整體布局和細(xì)節(jié)完善,在同參數(shù)規(guī)模下,可節(jié)省約50%的計(jì)算資源消耗。
這是阿里在AI視頻生成領(lǐng)域投下的一枚重要棋子。作為國(guó)內(nèi)科技巨頭在生成式AI賽道的最新動(dòng)作,這樣的技術(shù)路徑與開源策略既體現(xiàn)了行業(yè)發(fā)展趨勢(shì),也折射出阿里在技術(shù)競(jìng)爭(zhēng)中的布局考量。
技術(shù)架構(gòu)差異化嘗試
通義萬(wàn)相Wan2.2此次開源的三款模型中,文生視頻與圖生視頻模型采用的MoE架構(gòu)是最受行業(yè)關(guān)注的技術(shù)點(diǎn)。
通過(guò)動(dòng)態(tài)選擇部分專家(子模型)參與推理任務(wù),MoE架構(gòu)能提高模型的計(jì)算效率和性能,尤其適用于大型神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練和推理。
這種架構(gòu)并非憑空出現(xiàn),而是在現(xiàn)有視頻生成技術(shù)瓶頸下的針對(duì)性設(shè)計(jì):將模型拆分為高噪聲專家模型與低噪專家模型,前者負(fù)責(zé)視頻整體布局,后者專注細(xì)節(jié)完善,形成了分工明確的處理機(jī)制。
從技術(shù)邏輯看,這樣的設(shè)計(jì)直指視頻生成長(zhǎng)期存在的效率問題。
傳統(tǒng)模型在處理長(zhǎng)時(shí)序視頻時(shí),常因參數(shù)規(guī)模與計(jì)算資源的矛盾,難以兼顧質(zhì)量與效率。
MoE架構(gòu)通過(guò)激活參數(shù)的動(dòng)態(tài)調(diào)用,在27B總參數(shù)量級(jí)下能實(shí)現(xiàn)14B激活參數(shù)的精準(zhǔn)分配,使得同參數(shù)規(guī)模下計(jì)算資源消耗減少約50%。
這種資源優(yōu)化能力,在當(dāng)前AI大模型訓(xùn)練成本高企的背景下,具備實(shí)際應(yīng)用價(jià)值。
參數(shù)量總規(guī)模27B,激活量高達(dá)14B,激活占比超過(guò)50%至51.85%。
如此超高的激活占比是怎么做到的?
首先這并非易事,這需要有高度的模型架構(gòu)設(shè)計(jì)與優(yōu)化能力。就像智譜AI發(fā)布的旗艦?zāi)P虶LM-4.5,激活量占比9%,就能實(shí)現(xiàn)API價(jià)格僅為Claude的10%,原因也是智譜AI擁有對(duì)Transformer架構(gòu)持續(xù)積累了長(zhǎng)達(dá)4年的優(yōu)化成果。
要構(gòu)建一個(gè)能合理分配不同專家模型職責(zé),確保在不同去噪階段高噪聲專家模型與低噪專家模型有序工作的架構(gòu),需要對(duì)視頻生成過(guò)程中的數(shù)據(jù)流向、處理邏輯有極為精準(zhǔn)的把握。
同時(shí),在參數(shù)激活的動(dòng)態(tài)管理方面,如何根據(jù)輸入數(shù)據(jù)的特征、去噪任務(wù)的需求,在眾多參數(shù)中準(zhǔn)確激活對(duì)應(yīng)的14B參數(shù),避免無(wú)效激活造成資源浪費(fèi),還要保證激活參數(shù)間協(xié)同工作的高效性,是研發(fā)團(tuán)隊(duì)面臨的巨大挑戰(zhàn)。
這涉及到復(fù)雜的算法設(shè)計(jì)與大量的實(shí)驗(yàn)調(diào)試,以找到最適合視頻生成任務(wù)的參數(shù)激活策略。換句話說(shuō),這需要技術(shù)團(tuán)隊(duì)對(duì)模型任務(wù)所需要的數(shù)據(jù)有精確把控,以及為此采取了高效的激活策略和方法。
值得注意的是,MoE架構(gòu)在NLP(自然語(yǔ)言處理)領(lǐng)域已得到較多應(yīng)用,但在視頻生成領(lǐng)域仍屬新鮮事物。
視頻數(shù)據(jù)的時(shí)空復(fù)雜性遠(yuǎn)超文本,如何讓不同專家模型在處理動(dòng)態(tài)畫面時(shí)實(shí)現(xiàn)無(wú)縫協(xié)同,是技術(shù)落地的關(guān)鍵。
通義萬(wàn)相團(tuán)隊(duì)的解決方案是按去噪階段劃分專家職責(zé),這種思路能否成為行業(yè)通用范式,還需接受市場(chǎng)驗(yàn)證。
阿里巴巴選擇開源這三款模型,在商業(yè)策略上頗具深意。
當(dāng)前AI視頻生成領(lǐng)域呈現(xiàn)閉源競(jìng)賽與開源探索并行的格局,頭部企業(yè)多傾向于將核心模型作為商業(yè)服務(wù)的技術(shù)壁壘,而開源模式則試圖通過(guò)生態(tài)共建擴(kuò)大技術(shù)影響力。
從開發(fā)者層面看,Wan2.2的開源提供了一個(gè)可直接上手的技術(shù)樣本。
開發(fā)者可在GitHub、HuggingFace等平臺(tái)獲取模型代碼,這降低了視頻生成技術(shù)的研究門檻。對(duì)于中小企業(yè)而言,無(wú)需從零構(gòu)建模型,可基于現(xiàn)有框架進(jìn)行二次開發(fā),這在一定程度上會(huì)加速技術(shù)的場(chǎng)景落地。
在行業(yè)競(jìng)爭(zhēng)維度,此次開源可能加劇視頻生成技術(shù)的迭代速度。此前,國(guó)內(nèi)外已有多家企業(yè)推出視頻生成模型,但多以閉源API服務(wù)為主。
通義萬(wàn)相Wan2.2的開源,相當(dāng)于向行業(yè)公開了部分技術(shù)路徑,其他企業(yè)可能在此基礎(chǔ)上優(yōu)化升級(jí),形成技術(shù)反超。
實(shí)際應(yīng)用潛力與局限
從應(yīng)用場(chǎng)景來(lái)看,Wan2.2的5秒高清視頻生成能力,目前更適合作為創(chuàng)意工具而非生產(chǎn)工具。
在影視前期策劃中,創(chuàng)作者可通過(guò)文本或圖片快速生成片段,用于可視化創(chuàng)意方案;在廣告行業(yè),可輔助制作產(chǎn)品展示短視頻的初稿。這些場(chǎng)景對(duì)視頻時(shí)長(zhǎng)要求不高,卻能顯著提升前期溝通效率。
但其局限性也同樣明顯:?jiǎn)未紊?秒高清視頻的時(shí)長(zhǎng),意味著復(fù)雜敘事仍需人工拼接,與“電影級(jí)”的實(shí)際生產(chǎn)需求存在差距。
盡管阿里官方表示未來(lái)將提升時(shí)長(zhǎng),但視頻生成時(shí)長(zhǎng)的延長(zhǎng)并非簡(jiǎn)單的技術(shù)疊加,而是需要解決更長(zhǎng)時(shí)序下的邏輯連貫性、畫面一致性等問題,這對(duì)模型的時(shí)空建模能力提出了更高要求。
在美學(xué)控制方面,“電影級(jí)美學(xué)控制系統(tǒng)”通過(guò)參數(shù)化調(diào)節(jié)光影、色彩的設(shè)計(jì),確實(shí)降低了專業(yè)美學(xué)表達(dá)的門檻。
但這種控制的精準(zhǔn)度仍依賴于提示詞的專業(yè)性,普通用戶若缺乏基礎(chǔ)美學(xué)知識(shí),可能難以充分發(fā)揮其功能。
此外,模型生成的畫面風(fēng)格是否能真正達(dá)到“電影級(jí)”,還需專業(yè)創(chuàng)作者的實(shí)際使用反饋來(lái)驗(yàn)證。
放在全球AI視頻生成技術(shù)的坐標(biāo)系中,Wan2.2的開源是中國(guó)企業(yè)在該領(lǐng)域的一次重要發(fā)聲。
目前,國(guó)際范圍內(nèi)已有模型實(shí)現(xiàn)更長(zhǎng)時(shí)長(zhǎng)的視頻生成,且在畫面真實(shí)感上具備優(yōu)勢(shì)。
Wan2.2的特色在于MoE架構(gòu)帶來(lái)的資源效率提升,這一差異化路徑能否在激烈競(jìng)爭(zhēng)中占據(jù)一席之地,取決于其在實(shí)際場(chǎng)景中的落地效果。
對(duì)于整個(gè)行業(yè)而言,視頻生成技術(shù)仍處于快速進(jìn)化階段。從文本生成圖像到文本生成視頻,技術(shù)跨越的背后是對(duì)算力、數(shù)據(jù)、算法的綜合考驗(yàn)。
Wan2.2的出現(xiàn),本質(zhì)上是這一進(jìn)化過(guò)程中的一個(gè)技術(shù)節(jié)點(diǎn),其價(jià)值不在于顛覆行業(yè),而在于為行業(yè)提供了一種新的技術(shù)選擇。
未來(lái),隨著模型時(shí)長(zhǎng)的延長(zhǎng)、細(xì)節(jié)處理能力的提升,視頻生成技術(shù)可能會(huì)逐步滲透到更多領(lǐng)域。但這一過(guò)程需要時(shí)間,且必然伴隨著技術(shù)瓶頸的突破與商業(yè)模式的驗(yàn)證。
對(duì)于企業(yè)而言,如何平衡技術(shù)研發(fā)投入與商業(yè)回報(bào),將是比技術(shù)突破更難的課題。





京公網(wǎng)安備 11011402013531號(hào)