2024年2月15日,OpenAI正式對外公布文生視頻大模型Sora,引得全球網友高呼“AI解構真實世界的時候到了”。然而大約10個月時間過去,Sora依然只存在于PPT上,反而是亞馬遜云科技搶先OpenAI發布了Nova Reel文生視頻大模型,谷歌則面向企業用戶開放了AI視頻模型Veo。
海外互聯網巨頭忙于開發和布局AI生成視頻的同時,國內互聯網巨頭們也沒有閑著,早前快手旗下的AI團隊就打造出了視頻生成大模型可靈,隨后清華大學與北京數生科技聯手打造了視頻生成大模型Vidu,日前騰訊公司的AI團隊也推出了混元文生視頻大模型,并在騰訊元寶App上線。
作為國內知名度、市值最高的互聯網公司,騰訊在游戲、即時通信、移動支付等領域聲名顯赫。過去常有人質疑騰訊的技術研發能力,如今騰訊與亞馬遜云科技、谷歌等海外互聯網巨頭同期拿出了視頻生成大模型,證明了自己的研發能力絲毫不弱。
不過,體驗才是判斷技術實力的最終標準,騰訊視頻生成大模型究竟好不好用,體驗過才知道。
混元視頻模型初體驗:功能多而不強
騰訊混元大模型參數量為130億,是目前參數量最大的開源視頻生成類大模型,公測期間用戶每天可以獲得4次標準和2次高品質視頻生成機會,視頻生成長度為5秒。
單純看功能,騰訊混元文生視頻大模型比小雷之前使用過的同類產品都簡單易用,提供了豐富的視頻類型設置,例如比例、風格、景別、光線、鏡頭運動、流暢運鏡、豐富動作、導演模式等。然而,真的到使用階段,小雷的體驗卻一言難盡。

(圖源:騰訊元寶App截圖)
剛開始小雷并沒有給大模型上難度,以描述語“夕陽西下,少女坐在靠窗的書桌前,眼神不住地向上飄,嘴角微微上揚,似乎想起了什么值得開心的事”生成一段視頻,結果如下圖。

(圖源:騰訊混元大模型生成)
騰訊混元大模型生成的視頻畫面不錯,足夠以假亂真,只是與小雷腦補的畫面有明顯差別,白人女孩也有點“出戲”,而且書桌、窗戶等細節并沒有表現出來,整體令小雷有點失望。按理說,掌握了國內頭部短視頻平臺視頻號的騰訊,擁有充足的視頻數據可用于訓練大數據,結果這個視頻給我的感覺卻是基于國外數據訓練。
隨后,小雷又以“晴朗的天空,忽然烏云密布,繼而驟然下起了暴雨,路上的行人有的慌忙跑到房檐下避雨,有的把挎包頂在頭上一路狂奔”為描述語生成了一段視頻。

(圖源:騰訊混元大模型生成)
這段視頻不細看還能接受,但若仔細看就會發現視頻存在明顯的漏洞,如部分人物步伐有些虛浮,不像走在地面上,右側有個紅色的包“漂”了過去,可能是AI未能成功生成提包的人。至于天氣變化未能體現、沒有感受到在下雨等問題,小雷已無力吐槽。
最后一輪測試,小雷選擇了中景+拉近鏡頭,并以“寧靜的海灘,滿月高懸在天空,微風吹動著海邊的椰子樹,發出嘩啦啦的聲音,一只小貓咪慵懶地躺在沙灘上,舔舐著前腿上的毛發”為描述語生成了一段視頻。

(圖源:騰訊混元大模型生成)
這個場景相對較為簡單,沒有明顯的景物變化,就人類的腦補能力來說,比上一個要容易。然而這則視頻卻暴露了騰訊混元大模型的問題,我明明設置了拉近鏡頭,可視頻沒有表現出鏡頭的動態變化。小雷提到的椰子樹、貓咪舔舐毛發等物體和動作,也沒有體現出來。這段視頻月亮和海浪細節不錯,貓咪也很真實,但終究不是我想要的結果。
為驗證大模型的一致性問題,小雷用該段描述語和鏡頭設置再次生成了一段視頻。與上一段視頻相比,貓咪有了舔舐毛發的動作,椰子樹也出現在畫面中,可月亮因太大產生了虛假感,貓咪動的時候,沙子始終沒有變化也屬于漏洞。

(圖源:騰訊混元大模型生成)
小雷翻看了騰訊混元大模型給出的范例,大多數是使用大量關鍵字描述,而非如小雷給出的自然語言,后者難度顯然更高。從實際表現來看,騰訊混元大模型已經可以理解人類自然語言,并根據描述的畫面生成視頻,同一段話兩次生成的結果也較為接近,只是細節方面有待提升。
當然,騰訊混元大模型究竟達到了什么水平,還是要對比過后才能知道。因此,小雷使用Vidu和可靈兩款大模型根據第三段描述語分別生成了一段視頻。需要注意的是,這兩款視頻生成大模型雖然未提供鏡頭控制功能設置,但可以在描述語后加入中景、拉近鏡頭等詞語加以調控。
Vidu生成的視頻將小雷描述中的風吹動椰子樹、舔舐毛發、鏡頭拉近都完美展現,與小雷腦補的畫面較為接近。美中不足的是,這段視頻中的月亮過于明亮,搭配湛藍的整體色調,更像早上太陽初升的時間,沙灘則過于平整,沒有任何沙子的感覺。

(圖源:Vidu生成)
可靈生成的視頻在小雷看來是這幾個視頻中最符合預期的,海浪、風吹動椰子樹、舔舐毛發等細節都有,還加入了虛化和鏡頭拉近效果,影子的細膩變化更是驚喜。問題在于該視頻依然存在細節方面的問題,沒有表現出滿月,更像是白天。

(圖源:可靈生成)
另外兩段描述語,小雷也用Vidu和可靈進行了測試,限于篇幅問題,不再一一展示。總而言之,現階段視頻生成類大模型均已具備理解自然語言的能力,但面對較為復雜的場景,依然會存在諸多漏洞,而在相對簡單的場景下,Vidu、可靈等“老牌”視頻生成模型的表現略好,細節漏洞少一些,騰訊混元大模型仍有較大進步空間。
混元視頻大模型未來可期,但要騰訊足夠重視
從0到1的難度,可能比從1到2高得多,摸著石頭過河的混元大模型在易用性、功能性方面更勝一籌,但AI大模型不同于其他行業,不但需要前人引路,還需要技術積累、算力規模、訓練數據。
擁有騰訊作為后盾,混元大模型不缺財力,可算力需要大量GPU和AI計算卡,更何況當前AI公司都在爭奪GPU和AI計算卡的產能,哪怕騰訊不缺錢,也需要時間堆算力、程序員優化算法、大量數據用于訓練。Vidu和可靈已升級至1.5版本,除了文生視頻,還支持圖片生成視頻,剛誕生不久的混元文生視頻大模型略顯稚嫩,生成的視頻質量有一定的差距。

(圖源:mockup套殼)
好在,混元大模型背后畢竟是國內互聯網行業霸主騰訊,在騰訊技術團隊和資金的支持下,相信混元大模型能夠以極快的速度成長。
從騰訊、亞馬遜云科技、谷歌等企業的表現來看,2025年會是全球視頻生成大模型爆發的一年,AI生成視頻的長度也將從數秒提升至分鐘級,如亞馬遜云科技的Nova Reel即將支持生成長達2分鐘的視頻。
與AI生成圖文相比,生成視頻才能徹底解放想象力,將我們大腦中的想法和腦補的畫面轉化成現實。還有無數的網絡小說作家,希望能夠通過AI將小說轉化成動畫或真人視頻。一旦AI生成視頻技術成熟,全球文娛產業將遭遇前所未有的變局。
視頻生成大模型正井噴式涌現,2025年或將成為“視頻生成大模型元年”,也是決定相關企業成敗的關鍵一年。從可靈、Vidu到騰訊混元大模型,國內企業已及時入場,把握到了新時代的機遇。能否在新時代引領全球視頻生成大模型行業,或許很快就能見分曉。





京公網安備 11011402013531號