搶跑Sora！騰訊視頻大模型初體驗：功能多，但不強

IP屬地中國·北京 編輯：陸辰風雷科技 時間：2024-12-11 11:12:44

2024年2月15日，OpenAI正式對外公布文生視頻大模型Sora，引得全球網友高呼“AI解構真實世界的時候到了”。然而大約10個月時間過去，Sora依然只存在于PPT上，反而是亞馬遜云科技搶先OpenAI發布了Nova Reel文生視頻大模型，谷歌則面向企業用戶開放了AI視頻模型Veo。
海外互聯網巨頭忙于開發和布局AI生成視頻的同時，國內互聯網巨頭們也沒有閑著，早前快手旗下的AI團隊就打造出了視頻生成大模型可靈，隨后清華大學與北京數生科技聯手打造了視頻生成大模型Vidu，日前騰訊公司的AI團隊也推出了混元文生視頻大模型，并在騰訊元寶App上線。
作為國內知名度、市值最高的互聯網公司，騰訊在游戲、即時通信、移動支付等領域聲名顯赫。過去常有人質疑騰訊的技術研發能力，如今騰訊與亞馬遜云科技、谷歌等海外互聯網巨頭同期拿出了視頻生成大模型，證明了自己的研發能力絲毫不弱。
不過，體驗才是判斷技術實力的最終標準，騰訊視頻生成大模型究竟好不好用，體驗過才知道。
混元視頻模型初體驗：功能多而不強
騰訊混元大模型參數量為130億，是目前參數量最大的開源視頻生成類大模型，公測期間用戶每天可以獲得4次標準和2次高品質視頻生成機會，視頻生成長度為5秒。
單純看功能，騰訊混元文生視頻大模型比小雷之前使用過的同類產品都簡單易用，提供了豐富的視頻類型設置，例如比例、風格、景別、光線、鏡頭運動、流暢運鏡、豐富動作、導演模式等。然而，真的到使用階段，小雷的體驗卻一言難盡。
（圖源：騰訊元寶App截圖）
剛開始小雷并沒有給大模型上難度，以描述語“夕陽西下，少女坐在靠窗的書桌前，眼神不住地向上飄，嘴角微微上揚，似乎想起了什么值得開心的事”生成一段視頻，結果如下圖。
（圖源：騰訊混元大模型生成）
騰訊混元大模型生成的視頻畫面不錯，足夠以假亂真，只是與小雷腦補的畫面有明顯差別，白人女孩也有點“出戲”，而且書桌、窗戶等細節并沒有表現出來，整體令小雷有點失望。按理說，掌握了國內頭部短視頻平臺視頻號的騰訊，擁有充足的視頻數據可用于訓練大數據，結果這個視頻給我的感覺卻是基于國外數據訓練。
隨后，小雷又以“晴朗的天空，忽然烏云密布，繼而驟然下起了暴雨，路上的行人有的慌忙跑到房檐下避雨，有的把挎包頂在頭上一路狂奔”為描述語生成了一段視頻。
（圖源：騰訊混元大模型生成）
這段視頻不細看還能接受，但若仔細看就會發現視頻存在明顯的漏洞，如部分人物步伐有些虛浮，不像走在地面上，右側有個紅色的包“漂”了過去，可能是AI未能成功生成提包的人。至于天氣變化未能體現、沒有感受到在下雨等問題，小雷已無力吐槽。
最后一輪測試，小雷選擇了中景+拉近鏡頭，并以“寧靜的海灘，滿月高懸在天空，微風吹動著海邊的椰子樹，發出嘩啦啦的聲音，一只小貓咪慵懶地躺在沙灘上，舔舐著前腿上的毛發”為描述語生成了一段視頻。
（圖源：騰訊混元大模型生成）
這個場景相對較為簡單，沒有明顯的景物變化，就人類的腦補能力來說，比上一個要容易。然而這則視頻卻暴露了騰訊混元大模型的問題，我明明設置了拉近鏡頭，可視頻沒有表現出鏡頭的動態變化。小雷提到的椰子樹、貓咪舔舐毛發等物體和動作，也沒有體現出來。這段視頻月亮和海浪細節不錯，貓咪也很真實，但終究不是我想要的結果。
為驗證大模型的一致性問題，小雷用該段描述語和鏡頭設置再次生成了一段視頻。與上一段視頻相比，貓咪有了舔舐毛發的動作，椰子樹也出現在畫面中，可月亮因太大產生了虛假感，貓咪動的時候，沙子始終沒有變化也屬于漏洞。
（圖源：騰訊混元大模型生成）
小雷翻看了騰訊混元大模型給出的范例，大多數是使用大量關鍵字描述，而非如小雷給出的自然語言，后者難度顯然更高。從實際表現來看，騰訊混元大模型已經可以理解人類自然語言，并根據描述的畫面生成視頻，同一段話兩次生成的結果也較為接近，只是細節方面有待提升。
當然，騰訊混元大模型究竟達到了什么水平，還是要對比過后才能知道。因此，小雷使用Vidu和可靈兩款大模型根據第三段描述語分別生成了一段視頻。需要注意的是，這兩款視頻生成大模型雖然未提供鏡頭控制功能設置，但可以在描述語后加入中景、拉近鏡頭等詞語加以調控。
Vidu生成的視頻將小雷描述中的風吹動椰子樹、舔舐毛發、鏡頭拉近都完美展現，與小雷腦補的畫面較為接近。美中不足的是，這段視頻中的月亮過于明亮，搭配湛藍的整體色調，更像早上太陽初升的時間，沙灘則過于平整，沒有任何沙子的感覺。
（圖源：Vidu生成）
可靈生成的視頻在小雷看來是這幾個視頻中最符合預期的，海浪、風吹動椰子樹、舔舐毛發等細節都有，還加入了虛化和鏡頭拉近效果，影子的細膩變化更是驚喜。問題在于該視頻依然存在細節方面的問題，沒有表現出滿月，更像是白天。
（圖源：可靈生成）
另外兩段描述語，小雷也用Vidu和可靈進行了測試，限于篇幅問題，不再一一展示。總而言之，現階段視頻生成類大模型均已具備理解自然語言的能力，但面對較為復雜的場景，依然會存在諸多漏洞，而在相對簡單的場景下，Vidu、可靈等“老牌”視頻生成模型的表現略好，細節漏洞少一些，騰訊混元大模型仍有較大進步空間。
混元視頻大模型未來可期，但要騰訊足夠重視
從0到1的難度，可能比從1到2高得多，摸著石頭過河的混元大模型在易用性、功能性方面更勝一籌，但AI大模型不同于其他行業，不但需要前人引路，還需要技術積累、算力規模、訓練數據。
擁有騰訊作為后盾，混元大模型不缺財力，可算力需要大量GPU和AI計算卡，更何況當前AI公司都在爭奪GPU和AI計算卡的產能，哪怕騰訊不缺錢，也需要時間堆算力、程序員優化算法、大量數據用于訓練。Vidu和可靈已升級至1.5版本，除了文生視頻，還支持圖片生成視頻，剛誕生不久的混元文生視頻大模型略顯稚嫩，生成的視頻質量有一定的差距。
（圖源：mockup套殼）
好在，混元大模型背后畢竟是國內互聯網行業霸主騰訊，在騰訊技術團隊和資金的支持下，相信混元大模型能夠以極快的速度成長。
從騰訊、亞馬遜云科技、谷歌等企業的表現來看，2025年會是全球視頻生成大模型爆發的一年，AI生成視頻的長度也將從數秒提升至分鐘級，如亞馬遜云科技的Nova Reel即將支持生成長達2分鐘的視頻。
與AI生成圖文相比，生成視頻才能徹底解放想象力，將我們大腦中的想法和腦補的畫面轉化成現實。還有無數的網絡小說作家，希望能夠通過AI將小說轉化成動畫或真人視頻。一旦AI生成視頻技術成熟，全球文娛產業將遭遇前所未有的變局。
視頻生成大模型正井噴式涌現，2025年或將成為“視頻生成大模型元年”，也是決定相關企業成敗的關鍵一年。從可靈、Vidu到騰訊混元大模型，國內企業已及時入場，把握到了新時代的機遇。能否在新時代引領全球視頻生成大模型行業，或許很快就能見分曉。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

水獺、樹和鳥，于自然間重寫自我

豆包視頻生成大升級，網友們的腦洞終于自帶音效了。

不玩“虛”的！硬核兌現！上海元宇宙交出3年實戰答卷→

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

全站最新

水獺、樹和鳥，于自然間重寫自我

豆包視頻生成大升級，網友們的腦洞終于自帶音效了。

不玩“虛”的！硬核兌現！上海元宇宙交出3年實戰答卷→

阿里千問緊急辟謠

熱門推薦

水獺、樹和鳥，于自然間重寫自我

豆包視頻生成大升級，網友們的腦洞終于自帶音效了。

阿里辟謠

不玩“虛”的！硬核兌現！上海元宇宙交出3年實戰答卷→

今年創紀錄！字節跳動利潤據稱有望達500億美元

谷歌云深化與Palo Alto Networks合作，簽署近100億美元AI安全大單

羅永浩投訴上海電信千兆寬帶網速慢！公司稱有多種原因可維修

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

安卓上線“擴展深色主題”設置，專治堅守淺色UI的“不聽話”App

國產GPU四小龍IPO齊活！最后一個剛剛公布

蚌埠滕湖機場完成驗證試飛！

中國新礦物團隊再添一員！“金秀礦”正式命名背后有多難？｜封面專訪