![]()
想象一下,只需要一句話描述,AI 就能為你拍出一部完整的短劇?以后可能真的人人都能當(dāng)導(dǎo)演了。不用學(xué)復(fù)雜的拍攝技巧,不用買昂貴設(shè)備,甚至不用找演員。有個(gè)好想法,AI 就能幫你實(shí)現(xiàn)。
為了讓這個(gè)想法變成現(xiàn)實(shí),香港大學(xué)黃超教授團(tuán)隊(duì)開源了 ViMax 框架,并在 GitHub 獲得 1.4k + 星標(biāo),專注于 Agentic Video Generation 的前沿探索。通過(guò)多智能體協(xié)作,ViMax 實(shí)現(xiàn)了真正的 "自編自導(dǎo)自演"—— 從創(chuàng)意構(gòu)思到成片輸出的完整自動(dòng)化,把傳統(tǒng)影視制作的每個(gè)環(huán)節(jié)都搬進(jìn)了 AI 世界。
ViMax 的 "一人劇組" 有多強(qiáng)? 它就像一個(gè)數(shù)字化的全能團(tuán)隊(duì) ——AI 編劇負(fù)責(zé)寫劇本,AI 導(dǎo)演掌控節(jié)奏和鏡頭語(yǔ)言,AI 攝像師負(fù)責(zé)構(gòu)圖和視覺呈現(xiàn),AI 剪輯師精心打磨每個(gè)細(xì)節(jié)。這些 AI 小伙伴會(huì)自己討論創(chuàng)意,分配任務(wù),協(xié)調(diào)配合。你只需要輸入一個(gè)想法,AI 就能獨(dú)立完成整個(gè)制作流程,輸出千贊級(jí)別的視頻內(nèi)容。
在 AI 視頻制作領(lǐng)域,我們正在見證一場(chǎng)從 "片段生成" 到 "系統(tǒng)化制作" 的重要轉(zhuǎn)變。這不僅僅是技術(shù)升級(jí),更是創(chuàng)作方式的根本改變。
![]()
實(shí)驗(yàn)室地址:https://sites.google.com/view/chaoh開源地址:https://github.com/HKUDS/ViMax
長(zhǎng)視頻生成:核心技術(shù)挑戰(zhàn)
當(dāng)前主流的文本到視頻模型,如 Sora、Runway 等,雖然在短片段生成上表現(xiàn)亮眼,但面對(duì)真正的長(zhǎng)視頻制作時(shí),卻遭遇了兩個(gè)核心瓶頸:
1. 敘事規(guī)劃的復(fù)雜度爆炸
長(zhǎng)視頻制作需要統(tǒng)籌數(shù)百個(gè)鏡頭的敘事邏輯,涉及角色發(fā)展、情節(jié)推進(jìn)和主題呼應(yīng)等多個(gè)維度。這種多層次的故事架構(gòu)已經(jīng)超出了當(dāng)前語(yǔ)言模型的單輪處理極限。關(guān)鍵挑戰(zhàn)在于:如何將龐大的故事脈絡(luò)拆解成可操作的規(guī)劃模塊,同時(shí)確保整體敘事的邏輯自洽和情感連貫。
2. 跨鏡頭視覺連貫性難題
現(xiàn)有生成模型各自為戰(zhàn),缺乏對(duì)前序內(nèi)容的記憶能力,這導(dǎo)致角色形象、場(chǎng)景風(fēng)格、空間布局在不同鏡頭間頻繁 "變臉"。這種視覺記憶缺失在長(zhǎng)視頻中會(huì)產(chǎn)生雪球效應(yīng),嚴(yán)重影響觀眾的沉浸感和故事可信度。
如何突破這兩大技術(shù)瓶頸,成為 AIGC 中長(zhǎng)視頻亟待解決的關(guān)鍵問(wèn)題。
端到端多智能體協(xié)同架構(gòu)
ViMax 采用分層協(xié)作的設(shè)計(jì)思路,將長(zhǎng)視頻制作分解為五個(gè)相互協(xié)調(diào)的階段,每個(gè)階段由專門的智能體負(fù)責(zé):
階段 1:劇本創(chuàng)作(Screenwriting)
無(wú)論用戶輸入的是簡(jiǎn)單的一句話想法、完整小說(shuō)還是劇本片段,編劇智能體都能將其重新組織為標(biāo)準(zhǔn)化的影視劇本,包括場(chǎng)景設(shè)定、角色臺(tái)詞和故事節(jié)奏安排。
階段 2:分鏡規(guī)劃(Shot Planning)
分鏡智能體運(yùn)用專業(yè)電影制作理論,為每個(gè)劇本場(chǎng)景設(shè)計(jì)精確的鏡頭語(yǔ)言 —— 從攝像機(jī)位置、運(yùn)動(dòng)軌跡,到光影布局、角色調(diào)度,再到每個(gè)鏡頭的時(shí)間把控,形成完整的拍攝藍(lán)圖。
階段 3:視覺資產(chǎn)生成(Visual Asset Creation)
制作智能體采用 "先圖后視頻" 的兩步生成策略:首先創(chuàng)建核心視覺元素(角色造型、場(chǎng)景設(shè)計(jì)、關(guān)鍵畫面),然后以此為基礎(chǔ)生成對(duì)應(yīng)的動(dòng)態(tài)視頻片段,確保視覺風(fēng)格的精準(zhǔn)控制。
階段 4:質(zhì)量把控(Quality Assessment)
對(duì)于每個(gè)生成任務(wù),系統(tǒng)會(huì)同時(shí)產(chǎn)出多個(gè)版本,由質(zhì)檢智能體運(yùn)用視覺語(yǔ)言模型進(jìn)行專業(yè)評(píng)估,篩選出最符合分鏡要求的版本。若所有候選都未達(dá)標(biāo),系統(tǒng)將自動(dòng)調(diào)優(yōu)參數(shù)并重新生成。
階段 5:統(tǒng)籌協(xié)調(diào)
導(dǎo)演智能體擔(dān)任總指揮,監(jiān)控全流程的協(xié)調(diào)運(yùn)轉(zhuǎn),維護(hù)各階段輸出的風(fēng)格統(tǒng)一,并負(fù)責(zé)智能體間的任務(wù)分配與信息同步。
從敘事到鏡頭:三層遞歸規(guī)劃體系
遞歸式敘事分解策略
ViMax 采用遞歸分解機(jī)制來(lái)馴服長(zhǎng)視頻敘事規(guī)劃的復(fù)雜性挑戰(zhàn)。系統(tǒng)將完整劇本按照敘事邏輯分解為三個(gè)層次化管理單元:
事件層(Events):捕獲核心敘事節(jié)點(diǎn),如故事起始、情感轉(zhuǎn)折、結(jié)局收束等關(guān)鍵劇情錨點(diǎn),構(gòu)建整體故事骨架。場(chǎng)景層(Scenes):將抽象事件具象化為可執(zhí)行的戲劇單元,如 "雨夜咖啡廳的告別對(duì)話" 或 "辦公室里的緊張對(duì)峙",明確時(shí)空背景和情境設(shè)定。鏡頭層(Shots):為每個(gè)場(chǎng)景輸出精確的執(zhí)行指令,涵蓋鏡頭語(yǔ)言(特寫、全景、移動(dòng)軌跡)、演員調(diào)度、光影氛圍等具體制作參數(shù)。
這種分層遞歸策略確保語(yǔ)言模型在每個(gè)認(rèn)知層次都面對(duì)適度的規(guī)劃范圍,既避免了整體敘事處理的認(rèn)知瓶頸,又通過(guò)層次間的依賴傳遞維持了故事內(nèi)在的邏輯連貫性和情感節(jié)奏。
RAG 增強(qiáng)的全局上下文同步
分層分解雖然有效控制了復(fù)雜度,但也帶來(lái)了上下文碎片化的風(fēng)險(xiǎn) —— 原始素材中的豐富背景信息可能在層次切分中丟失。ViMax 通過(guò)集成檢索增強(qiáng)生成(RAG)系統(tǒng)來(lái)應(yīng)對(duì)這一挑戰(zhàn):
建立全局知識(shí)庫(kù):系統(tǒng)首先對(duì)原始劇本或小說(shuō)進(jìn)行深度解析,構(gòu)建包含角色關(guān)系、情節(jié)脈絡(luò)、主題元素的綜合索引庫(kù)。動(dòng)態(tài)上下文檢索:在每個(gè)分解階段,系統(tǒng)根據(jù)當(dāng)前生成的文本描述,智能檢索相關(guān)的全局背景信息,包括前文伏筆、角色設(shè)定、情感基調(diào)等關(guān)鍵要素。上下文融合生成:將檢索到的全局信息與當(dāng)前層次的局部規(guī)劃需求相融合,生成既滿足具體制作要求又保持整體故事邏輯的詳細(xì)描述。
這種 RAG 機(jī)制確保每個(gè)局部規(guī)劃決策都能 "看見" 更大的故事圖景,有效避免了角色性格突變、情節(jié)邏輯矛盾、主題偏離等常見問(wèn)題,讓 AI 在處理復(fù)雜敘事時(shí)既見樹木,又見森林。
圖網(wǎng)絡(luò)驅(qū)動(dòng)的視覺一致性方案
基于圖結(jié)構(gòu)的視覺元素追蹤機(jī)制
為解決跨鏡頭視覺一致性難題,ViMax 設(shè)計(jì)了基于依賴關(guān)系的智能生成框架。系統(tǒng)在規(guī)劃階段對(duì)所有鏡頭描述進(jìn)行深度解析,自動(dòng)識(shí)別共享視覺元素 —— 包括角色身份、場(chǎng)景環(huán)境、道具物件等關(guān)鍵要素,并構(gòu)建反映這些元素間依賴關(guān)系的有向圖結(jié)構(gòu)。
在生成執(zhí)行階段,系統(tǒng)對(duì)依賴圖進(jìn)行拓?fù)渑判騼?yōu)化:無(wú)依賴關(guān)系的獨(dú)立鏡頭可實(shí)現(xiàn)并行批量生成,而存在依賴關(guān)系的鏡頭則啟用條件引導(dǎo)生成模式 —— 以先前生成的視覺內(nèi)容為參考基準(zhǔn),而非單純依賴文本描述進(jìn)行從零生成。
這種圖網(wǎng)絡(luò)驅(qū)動(dòng)的方案在確保視覺連貫性的同時(shí),通過(guò)智能并行化處理顯著提升了整體生成效率。
過(guò)渡視頻的空間幾何約束機(jī)制
針對(duì)同一場(chǎng)景內(nèi)的多視角拍攝需求,ViMax 引入了過(guò)渡視頻生成技術(shù)來(lái)維護(hù)空間幾何的嚴(yán)格一致性。當(dāng)多個(gè)鏡頭需要從不同角度展現(xiàn)同一物理空間時(shí),保持準(zhǔn)確的空間關(guān)系對(duì)避免 3D 布局沖突至關(guān)重要。
系統(tǒng)首先識(shí)別需要空間連貫性約束的場(chǎng)景組合,然后生成連接不同視角的流暢攝像機(jī)運(yùn)動(dòng)軌跡。這些過(guò)渡視頻充當(dāng)空間校準(zhǔn)錨點(diǎn),確保場(chǎng)景內(nèi)所有視角都遵循統(tǒng)一的 3D 幾何約束。
例如,在生成兩角色對(duì)話的正反打鏡頭時(shí),系統(tǒng)會(huì)先創(chuàng)建一個(gè)從角色 A 視角平滑過(guò)渡到角色 B 視角的連續(xù)運(yùn)動(dòng)視頻,以此為幾何基準(zhǔn)生成兩個(gè)獨(dú)立的對(duì)話鏡頭,從而保證空間位置關(guān)系的完美契合。
多智能體協(xié)同的專業(yè)化分工
ViMax 的核心智能體角色
導(dǎo)演智能體(Director Agent):擔(dān)任全流程總指揮,統(tǒng)籌任務(wù)調(diào)度、進(jìn)度監(jiān)控和品質(zhì)審核,確保各環(huán)節(jié)協(xié)調(diào)配合和整體輸出標(biāo)準(zhǔn)。編劇智能體(Screenwriter Agent):專門處理各種形式的輸入內(nèi)容,將用戶的創(chuàng)意想法轉(zhuǎn)化為標(biāo)準(zhǔn)化、結(jié)構(gòu)完整的劇本格式。分鏡智能體(Shot Planning Agent):具備深度的影視語(yǔ)言專業(yè)知識(shí),運(yùn)用鏡頭美學(xué)、敘事節(jié)奏和視覺表達(dá)理論,為每個(gè)劇本段落設(shè)計(jì)精確的視聽呈現(xiàn)策略。視頻生成智能體(Video Generation Agent):執(zhí)行核心創(chuàng)作任務(wù),從角色造型設(shè)計(jì)、場(chǎng)景環(huán)境構(gòu)建到動(dòng)態(tài)視頻合成,負(fù)責(zé)將抽象描述轉(zhuǎn)化為具體視覺內(nèi)容。質(zhì)量控制智能體(Quality Control Agent):基于先進(jìn)視覺語(yǔ)言模型的多維度評(píng)估體系,對(duì)生成內(nèi)容進(jìn)行嚴(yán)格的質(zhì)量檢驗(yàn)和智能化迭代引導(dǎo)。
VLM 驅(qū)動(dòng)的迭代質(zhì)量?jī)?yōu)化機(jī)制
系統(tǒng)采用多候選并行生成策略,為每個(gè)創(chuàng)作任務(wù)同時(shí)產(chǎn)出多個(gè)版本,隨后通過(guò)視覺語(yǔ)言模型進(jìn)行綜合評(píng)估。評(píng)估體系涵蓋視覺真實(shí)感、敘事邏輯連貫性、分鏡技術(shù)規(guī)格執(zhí)行度等關(guān)鍵質(zhì)量指標(biāo)。
當(dāng)所有候選版本均未達(dá)到預(yù)設(shè)質(zhì)量閾值時(shí),系統(tǒng)啟動(dòng)智能迭代機(jī)制:基于 VLM 提供的詳細(xì)反饋信息,自動(dòng)調(diào)優(yōu)生成參數(shù)配置,并重新執(zhí)行生成過(guò)程,直至輸出符合標(biāo)準(zhǔn)的高質(zhì)量?jī)?nèi)容。
這種閉環(huán)質(zhì)量控制機(jī)制確保每個(gè)制作環(huán)節(jié)都能輸出專業(yè)級(jí)別的成果,為最終的完整視頻奠定堅(jiān)實(shí)基礎(chǔ)。
![]()
https://mp.weixin.qq.com/s/AgFk-DstU4GQ0ayeCXnTxA?click_id=1
技術(shù)展望與未來(lái)方向
ViMax 標(biāo)志著 AI 視頻生成從 "碎片化拼接" 向 "體系化創(chuàng)作" 的重要躍遷,但仍有不少提升空間:
計(jì)算效率提升:目前系統(tǒng)需要頻繁調(diào)用外部 API,后續(xù)可通過(guò)模型集成或蒸餾技術(shù)來(lái)降低計(jì)算開銷,提高響應(yīng)速度。交互編輯功能:支持用戶在制作過(guò)程中隨時(shí)介入調(diào)整,比如修改某個(gè)鏡頭設(shè)計(jì)或調(diào)整劇情節(jié)奏,讓創(chuàng)作更靈活。多元文化支持:擴(kuò)展對(duì)不同地區(qū)敘事風(fēng)格和視覺傳統(tǒng)的理解,讓系統(tǒng)能創(chuàng)作出更有地域特色的內(nèi)容。音頻制作整合:補(bǔ)齊音效、配樂(lè)、對(duì)白等音頻環(huán)節(jié),形成完整的影視制作流程。
從技術(shù)發(fā)展角度看,ViMax 的核心價(jià)值在于找到了一種將專業(yè)制作經(jīng)驗(yàn)轉(zhuǎn)化為系統(tǒng)化流程的方法。這種思路不僅適用于視頻制作,對(duì)其他需要多環(huán)節(jié)協(xié)作的復(fù)雜創(chuàng)作任務(wù)也有借鑒意義。隨著技術(shù)成熟,我們有理由期待看到更多專業(yè)創(chuàng)作工具的自動(dòng)化突破。





京公網(wǎng)安備 11011402013531號(hào)