機器之心發布
機器之心編輯部
當 Sora 2、Google Veo 3 還在卷短視頻逼真度,AI 影視的下一站該是長片敘事了?
在 AI 視頻生成技術日新月異的今天,主流模型如 Sora 2、Google Veo 3 等已能生成視覺驚艷的短視頻片段,但想要創作長視頻甚至是影視作品時,AI 模型似乎開始變得力不從心。
然而,在好萊塢,一家 AI 影視公司卻已經拔地而起,開始將 AI 影視生成技術從模型驗證推向大規模產業化。
11 月 3 日,據 Deadline 報道,AI 原生影視工作室 Utopai Studios 與全球創新投資平臺 Stock Farm Road(SFR)宣布成立資本規模達數十億美元的合資公司 Utopai East,以加速韓國影視的國際化進程。
SFR 背后,一面是 LG 集團繼承人 Brian Koo,另一面是阿聯酋主權基金推動者 Amin Badr-El-Din。
![]()
報道顯示,此次合作中 Utopai Studios 將成為 SFR 在娛樂領域的獨家 AI 技術合作伙伴,依托 SFR 在韓國規劃的 350 億美元 AI 數據中心樞紐,構建下一代影視制作基礎設施。
![]()
在這場以韓娛為核心的產業協同背后,隱藏著 Utopai 希望系統性攻克的關鍵命題:如何讓 AI 真正理解并駕馭影視長片的敘事邏輯,進而實現從「短片生成」到 「長片制作」的工業級跨越?
![]()
視頻鏈接:https://mp.weixin.qq.com/s/ACTi_DYghRP2rFKSungTeQ
核心問題:為何傳統視頻模型難以駕馭長片制作?
目前主流視頻生成模型(如 Diffusion)的本質還是概率性生成器,它們逐幀或短片段獨立生成視頻,缺乏對長敘事邏輯的全局規劃能力。
當視頻生成目標從「生成片段」升級為「制作長片」時,Diffusion 模型的短板開始凸顯:
長程一致性崩塌:角色外貌、場景元素在跨鏡頭時容易出現「漂移」,例如服裝顏色突變、人物外貌畸變等。敘事可控性不足:模型難以理解劇本中的因果鏈條(如情緒的遞進轉換),生成的內容往往與導演意圖偏離。物理合理性缺失:模型僅學習 2D 像素統計規律,缺乏對三維空間遮擋、碰撞等規則的認知,易產生反物理的「幻覺」。
Utopai 帶來的解決方案則是直擊痛點 ——不再追求單一模型的極致優化,而是通過架構重組,讓不同模型各司其職。
技術架構:規劃與渲染解耦的協同范式
Utopai 在技術上的重要創新是構建了分層協同架構,其中自回歸模型(AR)負責「規劃」,擴散模型(Diffusion)負責「渲染」,二者通過統一狀態空間耦合。
1.規劃層:自回歸模型作為「導演大腦」
序列預測機制:AR 模型以劇本為輸入,通過前幀預測后幀的機制,生成涵蓋角色 ID 向量、攝像機軌跡、光影變化等要素的時空計劃。該計劃本質是一個機器可執行的「拍攝藍圖」,確保長達數十分鐘的片長中元素演進邏輯保持一致。狀態記憶與因果推理:模型能夠維護可回放的長程狀態記憶,例如追蹤角色從第 1 鏡到第 50 鏡的動作軌跡,避免傳統模型因局部生成導致的邏輯斷裂。
2.渲染層:擴散模型作為「執行引擎」
條件化生成:擴散模型不再隨機「抽卡」,而是嚴格依據規劃層輸出的結構化指令(如深度圖、光流信號)生成畫面。例如,當規劃層指定「攝像機以俯角拍攝雨夜小巷」 時,擴散模型就會據此渲染細節。物理規律注入:通過訓練時引入帶精確標注的 3D 合成數據,模型學習空間遮擋、材質反射等規則,避免生成內容違反重力或碰撞邏輯。
3.協同接口:統一狀態空間
規劃層與渲染層通過統一狀態空間交換信息:規劃器輸出未來幀的幾何與語義約束,渲染器據此生成像素,并反饋生成結果供規劃器優化后續計劃。這一閉環解決了擴散模型「生成即遺忘」的缺陷。
簡單來說,Utopai 的突破就在于構建了一種融合自回歸模型與擴散模型的協同架構,通過「規劃 — 渲染」解耦的協同范式,將 AI 從「畫面生成工具」升級為「敘事協作伙伴」。
訓練方法論:從 2D 統計到 3D 物理規律的躍遷
Utopai 模型能力的基石是其獨特的訓練策略,訓練的核心是用 3D 物理規律替代 2D 像素統計。
1.預訓練階段:幾何與語義對齊
通過使用高質量 3D 合成數據(如虛擬城市、動態物體),訓練模型去理解場景的深度信息,如材質屬性、運動軌跡等,而非僅學習網絡視頻的像素分布;通過構建「下一狀態預測」「掩碼重建」等任務,強制模型推理物體遮擋關系(如角色繞過桌椅而非穿模)。
2.微調階段:多模態指令遵循
在這一階段,引入劇本、分鏡等專業數據,訓練模型將抽象指令(如「史詩感」)轉化為具體視覺元素(如低角度鏡頭、暖色調光影)。
這樣的訓練方式使模型能處理復雜指令,例如當要求角色「由懷疑轉為恍然大悟」時,模型能夠協調人物角色的面部微表情、肢體語言、鏡頭焦距的同步變化,而非簡單替換表情貼圖。
可量化的技術優勢:定義 AI 電影敘事的新指標
當前 AI 視頻領域的通用指標(如 FVD、CLIP Score)主要衡量視覺逼真度和文本符合度,但無法有效評估「敘事質量」。
Utopai 的核心優勢之一,正是建立一套基于專業影視標準的內部評估體系,其在三個維度超越傳統方案:
1.一致性指標
相較于通用模型在幾秒后可能出現角色特征「漂移」的現象,Utopai 的系統旨在跨越數十甚至上百個鏡頭,仍然穩定保持核心角色身份、場景布景和光影邏輯的連續性。這種一致性不是簡單的「不變化」,而是按照敘事邏輯的「合理演進」。
2.劇本指令遵從度
Utopai 能夠量化生成內容與復雜劇本指令的匹配程度。例如,當劇本要求「角色從猶豫轉為決絕」時,AI 模型能通過姿態、視線、鏡頭語言與光影的協同變化,呈現出符合表演邏輯的情感轉變,而非生硬的表情切換。
3.制作效率的躍升
這樣的架構能極大優化專業影視制作的前期流程,導演可通過修改時空計劃(如調整攝像機軌跡)精準控制生成結果,無需反復「抽卡」,將創意迭代周期從數周縮短至幾天。
Utopai 的實踐揭示了一條代表范式轉變的技術路徑:影視級 AI 模型的未來不是替代 Diffusion 或 AR,而是通過架構創新實現專業化分工。
在這里,AI 不再是輔助工具,而是能夠理解導演愿景、具備電影級思維的真實創作伙伴。
正如 Utopai 創始人兼 CEO Cecilia Shen 所言:「AI 可以生成無窮選項,但定義品味的永遠是會講故事和有藝術審美的人。」
而此次合作也不僅是資本層面的聯手,更是以韓國為戰略樞紐,整合 AI 技術、算力基建與內容生態的系統性布局。
當技術的成本壁壘被 AI 擊穿,電影制作的未來將更多地取決于想象力的邊界,而非預算的多少。那些曾因「拍不起」而被擱置的宏大敘事,或許正奔跑著擁抱 AI 影視,闊步走向好萊塢大熒幕。





京公網安備 11011402013531號