![]()
公開數據顯示,2025年全球AI視頻生成市場規模已突破300億美元,年復合增長率維持在40%以上的高位水平,并呈現出短視頻廠商和通用大模型廠商分而治之的局面。
而短視頻平臺(如快手可靈、抖音即夢)憑借其龐大的流量基礎,加之模板化創作+社區分發的使用閉環,在全球市場占有率上甚至超過了以Sora、Google Veo為首的技術領跑者。而這一趨勢也使得全球的主流AI視頻模型都在追求短片中的極致細節,以此來最大程度吸引C端用戶的付費。
這種現狀也使得市場上主流的視頻模型在面對“長片”,尤其是電影這種工業級需求時體現出的種種“力不從心”。
首先是一致性的問題,主流視頻模型在處理短視頻、,少人物、,簡單場景的鏡頭轉換時還能勉強保持一致性。而一旦涉及到長程視頻、多人物、復雜場景,就會很難維持角色外貌、服裝和場景元素的穩定。其次是模型敘事能力的缺失,視頻模型難以理解劇本中的因果鏈條和敘事手法,更無法匹配與之相符的鏡頭語言,導致生成的內容常常與導演意圖天差地別。另外,主流模型的物理規則認知水平不足。對于短視頻這種“淺內容”來說,些許的物理“幻覺”是可以容忍的,模型靠對2D像素統計規律理解的物理規則已經足夠。但對于電影工業級別的視頻需求,這些還遠遠不夠。
而事實上,短程vs長程,追求細節vs追求敘事,短視頻vs電影,AI視頻生成模型的發展已經根據需求的差異分化出了完全不同的路徑,影視工業級的AI視頻大模型正逐漸浮出水面。
新物種來襲
近日,好萊塢的AI原生影視工作室Utopai Studios宣布,與全球創新與投資平臺Stock Farm Road共同出資數十億美元,設立新合資公司Utopai East,旨在建立全球首個AI原生影視制作體系。同時,Utopai Studios還同步推出專為電影與電視制作而設計的AI模型和工作流。與短視頻界面的模型不同,該模型具備“理解劇本、解析故事,并協助導演規劃鏡頭和生成場景”的能力。
根據公開資料,Utopai Studios是第一家加入好萊塢公會的AI公司,在業內被看作是“打破了好萊塢對AI抵觸”的關鍵節點。公司前身Cybever創立于2022年,專注于“用AI生成高精度3D虛擬環境”,初期服務游戲與影視行業。2025年,公司更名為Utopai Studios,從“AI技術供應商”轉型為“AI原生影視工作室”,聚焦用AI技術制作電影、電視劇等原創內容。
Utopai Studios的創始人兼首席執行官Cecilia Shen出生于2000年,大學就讀于加拿大滑鐵盧大學,主修數學,大學二年級就進入Google X實驗室,參與Moonshot項目。2022年,她與Jie Yang(前Google X同事)聯合創立了Cybever。![]()
轉型后的Utopai Studios隨即獲得好萊塢改革派力量(如前派拉蒙CEO)的投資,首年即實現1.1億美元預售收入(涵蓋史詩電影《Cortés》、科幻劇集《Project Space》等項目),打開了AI在長內容領域實際應用的想象空間。
而新公司的另一個主角Stock Farm Road(以下簡稱SFR),由韓國LG集團繼承人,斯坦福校友,近些年活躍在硅谷創投圈的Brian Koo與阿聯酋Offsets Group創始人、前董事長兼CEO,推動了阿聯酋主權財富基金成立的Dr. Amin Badr-El-Din聯合成立。此前,SFR也對外公布了即將在韓國建設 350億美元級AI數據中心的計劃。這個全球最大之一的數據中心與本次設立的新公司構成戰略聯動,為AI模型訓練、渲染與生成提供基礎算力支撐。![]()
韓國擁有成熟的影視工業體系、全球流行文化輸出能力(K-pop、K-drama、K-movie),以及開放的政府創新政策。新公司名為Utopai East也表明了其把韓國影視產業優勢和先進的影視制作智能結合,并把這些內容面向全球發行的戰略意圖。
在這個合資體系里,Utopai提供AI制作核心能力,Stock Farm Road提供資本、算力、數據與國際化通道。這一體系也成為AI時代下全球產業—技術—資本聯動的成功案例(韓系產業資本+ 硅谷創新網絡+ 中東主權資金)。
影視工業級視頻模型
讓我們聚焦到Utopai的AI影視模型,看它是如何完成理解劇本、解析故事,并協助導演規劃鏡頭和生成場景這些動作。
影視工業化的傳統流程,是靠人工完成從劇本→故事板→3D previz→實拍→后期的工作。動畫上靠手捏,制作上靠physical production,前期場景搭建與預可視化工作量巨大,且修改起來非常麻煩。頭部影片從立項到上映常常需要3–5年,這個過程既費錢又費時間。
而Utopai的影視模型,會自己把劇本拆解為故事板、通過3D-EnGen生成可交互的3D場景,再輸出可控視頻,直接把劇本可視化,實現端到端閉環(Previz-to-Video Pipeline)。通過對劇本內容、敘事結構、電影語言和視覺風格的深度解析,,該模型采用“規劃—生成”的自回歸AR(auto-regressive)機制,在創作者的全程指導下,系統性地規劃并生成多鏡頭序列,確保作品的敘事連貫性與畫面一致性。這套工作流也并非靠單一模型來完成,而是像電影工作組一樣“分工協作”完成。其中自回歸模型負責“規劃”,擴散模型負責“渲染”,最后通過統一狀態空間耦合。![]()
自回歸模型作為“導演大腦”,主要負責理解劇本,生成拍攝計劃,確保后續模型生成的幾十分鐘的視頻能夠始終為敘事服務并保持元素的一致性,這也是Utopai影視模型的核心。這一步極大程度上解決了前文提到的主流視頻模型在長程視頻領域的一致性和敘事能力難題。自回歸模型通過前幀預測后幀機制,生成涵蓋角色ID向量、攝像機軌跡、光影變化等要素的時空計劃,也就是導演大腦中的拍攝藍圖。
接著,擴散模型作為“執行引擎”,負責根據既定敘事藍圖,依靠專業化的生成模塊(包含優化的Diffusion技術)下層的條件渲染器,專注于執行高質量的畫面生成。和主流短視頻模型的“概率生成模型”這種“隨機抽卡式”產出不同,擴散模型嚴格依據規劃層輸出的結構化指令生成畫面,生成條件包括深度、法線、光流、遮罩、參考幀、相機軌跡等豐富的結構化信號。![]()
最終,規劃層與渲染層通過統一狀態空間交換信息:規劃器輸出未來幀的幾何與語義約束,渲染器據此生成圖像,并反饋生成結果供規劃器優化后續計劃。這一過程不斷重復,就保證了整套模型體系可以一幀一幀完成一部敘事通順,要素一致的長視頻。![]()
擁有如此完整的“劇本—視頻”能力的模型,注定會被問到的問題就是:是否會取代“導演”。對此,Cecilia Shen對鈦媒體表示:“我們一直強調,AI 模型在影視制作中不是‘“作者’”,而是‘“協作者’”。它不是來決定故事的,而是幫助導演更高效、更精確地表達故事。核心仍然是劇本與敘事。不同的劇本意味著不同的視覺語言,模型不會改變創作的本質,只是加快想象變成影像的速度。”
據Utopai Studio表示,大部分實際使用過模型的導演反饋他們并沒感覺到被替代,反而被激發了。很多導演在看到系統的實時生成后,會立刻想到更好的場景、更有張力的鏡頭。然后他們會重寫劇本、重新設計節奏。換句話說,AI并沒有收窄他們的想象力,而是把創作靈感低成本地提前釋放了出來。
“所以我更愿意說,AI不是讓創作者消失,而是讓他們變得更‘“純粹’”。”Cecilia Shen提到對我們說,“還是回到初始,模型只是眾多技術浪潮中的一個而已。每一位藝術家或創作者都像孩子一樣,他們不是抵觸技術。比如《玩具總動員》1995 年上映,這是世界上首部數字制作的動畫長片,無論在創意還是技術上都是一次影響深遠的躍進,也在全球斬獲了將近4億美元的票房收入。今天的情況同樣如此,所謂的抵觸AI,是否是因為我們用AI的方式錯了?”
據悉,Utopai產出的所有影視作品均已用到了該模型體系。其中,《科爾特斯》(Cortés):由奧斯卡提名編劇 Nicholas Kazan 執筆,頂級概念設計師 Kirk Petruccelli 執導,被譽為“史上最難拍史詩巨作”,常年位列好萊塢呼聲高卻未能拍攝的電影前10位,Utopai將以AI原生制作兩部100分鐘電影來呈現。另一部以AI原生制作的8集科幻劇集《太空計劃》(Project Space),被譽為“當《壯志凌云》遇見《世界大戰》”,由Vanessa Coifman 和 Martin Weisz 擔任編劇和導演,目前也已成功預售到歐洲市場了。
數據基座與訓練方法
Utopai模型能力的飛躍源于其獨特的訓練數據和訓練方法論,其核心是讓AI從大量高質量、帶精確標注的3D合成數據中學習,而不依賴于通用視頻模型常用的網絡二維視頻數據。這種方法使模型能夠內化物理規律,從根本上理解空間、遮擋和碰撞等三維世界規則,有效避免生成內容出現違背物理規律的“幻覺”問題。
Utopai從設計之初就非常關注合規和透明。模型僅使用經授權、與影視內容高度相關的專業數據集進行訓練,確保學習來源于專業且合規的素材,避免使用未經篩選的互聯網數據,確保學習源頭的高質量和合法性。而據我們了解,此次的合作方SFR就擁有體量相當龐大的合規視頻數據集與算力基礎設施,這也是此這次合作的重要戰略協同。同時,Utopai的工作流在美國、歐洲和亞洲均采用本地化部署,以符合各地區的AI與數據監管要求,確保使用透明、治理合規。“數據永遠是模型最大的壁壘。”Cecilia對我們表示,“Utopai目前模型只用于自制項目和影視領域信賴的合作伙伴,不會對外商業化,也暫不開放數據庫、版權等。”
另一方面,Utopai的對模型訓練過程也非常獨特,主要分為兩個關鍵階段:第一是幾何與語義對齊預訓練:此階段目標是建立模型對物理世界和視覺元素的底層理解,進行“文本-視頻-幾何”對齊以及下一狀態/掩碼重建等任務。第二是多模態指令微調:此階段增強模型對復雜、抽象的敘事指令和跨模態約束的遵循能力,使其能精準理解并實現導演的創作意圖。這種訓練方式使模型能夠對復雜的情感和敘事意圖進行狀態級的精確建模與可視化表達。
例如,當指令要求表現角色從“懷疑”轉變為“恍然大悟”時,模型能夠協調生成身體姿態、視線方向、鏡頭語言以及光影變化等一系列要素,呈現一個在表演邏輯上合理、情感層次分明的完整轉變過程,而非簡單地替換一個表情貼圖。
![]()
值得一提的是,Utopai真正做到了模型與工作流的統一。在模型被應用的真實制作場景中產生的數據,將會被用來持續優化模型,而更強大的模型則能反過來簡化甚至重塑工作流,最終賦能創作者。這一理念更接近蘋果的「軟硬件一體」生態:數據、模型、工作流與創作者,必須是一個深度集成、相互關聯、持續優化的閉環系統。“這個閉環,將是未來的所有AI的核心競爭力。”Cecilia表示。
當前AI視頻領域的通用指標(如FVD、CLIP Score)主要衡量視覺逼真度和文本符合度,但無法有效評估“敘事質量”。Utopai作為影視工業級視頻模型的領先者,也在著力建立一套基于專業影視標準的內部評估體系,主要做了三個額外評估緯度的補充:一致性指標;劇本指令遵從度;制作效率的躍升指標。
在Utopai Studio驗證中,這套工作流可以實現60%到90%提效,具體程度取決于內容類型和復雜程度。
視頻模型的未來
談及AI在影視工業的未來,Cecilia說到:
“接下來數年內,我們預計workflow agent將會在各行業爆發,AI會帶來更新的題材和內容,這是一定的。如果可以在一個行業里,將 80%~90%的事情實現自動化,那你就是成功的。
不過衡量成功可能有兩個重心,一個是是否真能做一個好的產品,而好的產品,要有好的審美和taste,最終衡量標準并不應該是「智能」。因為如果用戶需要不斷糾正,那么這不是一個好的體驗。第二個,效率層面是否能真的代替掉 80%的行業臃腫重復的工作。
Utopai底層強調的不是‘“無人參與’”和‘“替代’”,技術應擴展人類想象力,讓模型和工作流與創作者協作而非替代。每個組件都圍繞創作流程而設計,可解讀劇本、理解故事走向、協助導演進行鏡頭規劃,并生成與敘事意圖一致的場景。
此外,目前的視頻模型只是一個渲染器,而未來視頻模型會是unified(理解性系統),會越來越有敘事邏輯、理解思考能力。到那時候,可能AI或許真的能自成導演。”(作者|郭虹妘、陶天宇,編輯|陶天宇)
更多對全球市場、跨國公司和中國經濟的深度分析與獨家洞察,歡迎訪問 Barron's巴倫中文網官方網站





京公網安備 11011402013531號