編輯|+0
2025 年即將畫上句號,回望這一年的視頻生成領域,用「突飛猛進」來形容毫不為過,甚至可以說,視頻內容創作的范式正在悄然發生改變。
9 月,OpenAI 發布的 Sora 2 憑借「客串(Cameo)」功能,打破了困擾行業已久的「角色一致性」瓶頸,首創的「角色扮演功能」玩法讓 AI 視頻從充滿不確定性的「盲盒抽卡」進化為可控的「導演游戲」。
與此同時,商業落地的速度快得驚人:在 B 端,大量 AI 短劇、漫劇上線,制作成本大幅降低;在 C 端,社交平臺上不僅有「粘土濾鏡」這樣的爆款特效,更有大量博主開始常態化使用 AI 制作劇情短片。
然而,面對這些頂尖技術,普通用戶的心情往往是「又愛又恨」。愛的是,各家 SOTA 模型生成的畫面在光影質感與物理規律上已臻化境,甚至讓人恍惚感嘆「現實與虛擬的界限已然消失」;恨的是,體驗的門檻依舊存在,要么是高不可攀的內測資格,要么是每月不菲的訂閱賬單。
前段時間,驚喜降臨。阿里千問 APP 接入了 Wan 2.5(萬相 2.5),讓我們感受到了移動端創作的自由與暢快,這種在手機上免費生成「有聲視頻」的體驗,確實很香。在權威大模型評測集 LMArena 上,萬相 2.5 的圖生視頻能力曾位居國內第一。
而這份驚喜在年底迎來了重磅加碼。12 月 16 日,阿里趁熱打鐵,正式發布了新一代萬相 2.6 系列模型。如果說 2.5 版本是幫大家推開了視頻創作的門,那么此次面向專業影視制作和圖像創作場景全面升級的 2.6 版本,則是把專業影棚搬到了每個人面前,人人都能當電影主角或是導演。
![]()
體驗入口:https://tongyi.aliyun.com/wan/generate/video/starring-roles?model=wan2.6
先看一段官方提供的視頻,電影質感爆棚。
![]()
此次發布的萬相 2.6 系列涵蓋文生視頻、圖生視頻和參考生視頻,圖像生成和文生圖共 5 款模型,是目前全球功能覆蓋最全面的視頻生成模型家族之一。它是國內首個具備聲畫一致性角色定制能力的模型,這意味著你不僅能通過「角色參考」固定住視頻中人或物的 IP 形象,還能參考輸入視頻中的音色,實現從畫面到聲音的完美復刻,無論是單人獨白還是雙人對手戲都能輕松拿捏。
更重要的是,此次發布的版本進一步提升了畫質、音效和指令遵循能力,單次視頻生成時長實現了國內最高的 15 秒(參考生視頻為 10 秒),還帶來了「分鏡控制」功能,能自動拆解并實現多鏡頭切換等專業任務,讓 AI 不再只是生成零碎的片段,而是開始懂得構建完整的故事線。目前,萬相 2.6 已同步上線阿里云百煉和萬相官網,企業用戶可直接調用 API,千問 APP 也將于近期上線該模型。
![]()
簡單來說,阿里這次不僅把畫質拉滿了,更是把攝影師、燈光師、動作指導和錄音師打包塞進了你的手機和云端。
為了驗證萬相 2.6 是否真的這么厲害,我們決定不玩虛的,直接上手實測。
多角色聲畫同步的極限挑戰
AI 視頻最難的是什么?不是生成絢麗的畫面,而是在動態變化中保持「保真」與「一致」。
大家應該都還記得 Sora 2 發布時被瘋傳的「百變奧特曼」:山姆·奧特曼(Sam Altman)在各種場景下做炸雞、吃炒飯,雖然動作離譜,但那張臉和神態卻始終如一。現在,萬相 2.6 成了全球唯二,國內首個具備這種「參考生視頻」能力的模型。
這是面向專業影視創作的一次全面升級。全新的視頻參考生成功能,允許將任意人或物設定為主角,不僅能一鍵完成單人、多人、人與物合拍的視頻,還能在多鏡頭絲滑切換的過程中保持核心主體、場景布局和環境氛圍的統一。

從技術層面解析,通義萬相在模型結構上集成了多項創新技術,可對輸入參考視頻進行多模態聯合建模與學習。它不僅能參考具有時序信息的主體情緒、姿態和多角度全面視覺特征,更能同時提取音色、語速等聲學特征,在生成階段作為參考條件控制,實現從視覺到聽覺的全感官、全維度一致性遷移。
而「分鏡控制」則面向專業敘事場景,模型通過高層語義理解,將用戶簡單的提示詞轉換為多分鏡腳本,生成包含多個鏡頭的連貫敘事視頻,確保全片在內容、節奏和氛圍上的高一致性。

為了驗證這一能力,我們直接上傳了奧特曼、哈薩比斯和黃仁勛的過往視頻片段作為參考素材。萬相 2.6 能夠精準提取視頻中主體的形象特征、聲音聲線乃至慣用神態,并允許我們通過提示詞將他們「傳送」進全新的劇情中。
![]()
這一次,我們讓這三位科技圈頂流在一個極具電影質感的平行宇宙里,來了一場關于 GPT-5.2 和 Gemini 3 的「現場互懟」。我們在對話框中輸入設定臺詞和畫面,分多次生成最后拼接畫面。話不多說,直接來看正片:
![]()
英文版完美復刻了他們原本的聲線與語調,效果令人咋舌。
為了讓大家更直觀地感受音頻生成的實力,我們再看一個中文配音版,雖然語種跨越增加了難度,音頻效果略遜色于英文版,但依然不僅形似,更是神似。
仔細觀察三位主角的眉眼微表情、肢體語言乃至習慣性動作,還原度極高,幾位「AI 演員」可以說是演技滿滿。Sam 從首日身體后仰的「跑分王」傲慢,到次日瘋狂刷屏時的眼神閃爍、戰術喝水,情緒轉折絲滑流暢;Demis 那股從緊張防御到端著咖啡「貼臉開大」的戲謔笑意,簡直靈魂附體。當然,最絕的還得是「皮衣教主」黃仁勛,那仰天大笑的一攤手,仿佛直接穿透屏幕在說:「爭什么爭?最后不都得靠我?」
為了方便大家復刻同款大片,官方貼心提供了兩套核心提示詞模板:
針對「參考生視頻」,模型支持人物、萌寵或道具等任意類型主角(最多 3 個),并能完美復刻其外觀、動態及音色。只需套用公式「@主角 + 動作 + 臺詞 + 場景」:通過 @ 符號精準引用參考素材,描述動作情緒、臺詞內容及所處環境即可。例如:在一個童話場景中,@A(參考視頻為兔子)在草地玩耍,@B(參考視頻為狗)在樹下彈琴被蘋果砸中,@A 開心地說:「你要變成科學家了!」
而在「多鏡頭敘事」方面,萬相 2.6 能將原始輸入構建為具備敘事張力的專業級多鏡頭段落。無論是啟用智能多鏡還是手動精控,推薦使用公式「總體描述 + 鏡頭序號 + 時間戳 + 分鏡內容」。先概括故事主題與基調,再通過時間戳(如 [0-3 秒])劃分結構,詳細描述每個分鏡的運鏡與表演。例如:講述一個重拾希望的短劇。第 1 鏡頭 [0-3 秒] 男孩看著信紙嘆氣;第 2 鏡頭 [3-5 秒] 特寫眼角淚光;第 3 鏡頭 [5-10 秒] 場景切換,女孩微笑著走近安慰他。
當 AI 擁有了長敘事能力與「演技」
短視頻時代,能不能火全看「梗」和「戲」,面向廣告設計、短劇制作等專業場景,萬相 2.6 展現出了驚人的潛力。通過輸入連續提示詞,它能生成一段完整敘事的短片,讓人人都能當導演。下面我們測試一下它在細節把控和情緒表達上的「演技」。
為了驗證模型在極端條件下的細節把控能力,我們嘗試了一組高難度的特寫鏡頭測試。
提示詞:日式電影感,中近景:26 歲亞洲女性,黑色齊肩短發,清淡妝容,戴銀邊細框眼鏡,穿著米白色寬松針織毛衣。她站在溫馨昏黃的廚房里,手里端著一碗剛煮好的米線。特寫鏡頭:碗中升騰起濃郁的白色蒸汽,熱氣瞬間撲在她的臉上,熏白了她的眼鏡片,形成一層白霧。她微微一愣,透過模糊的鏡片眨了眨眼,表情呆萌而治愈,背景是虛化的充滿生活氣息的冰箱和櫥柜。
![]()
畫面聚焦于一位剛下班的都市女性,她端著一碗熱氣騰騰的面條準備享用。令人驚嘆的是,當熱氣上涌,水霧瞬間在她的眼鏡鏡片上凝結成一層細密而真實的白霜,視野的模糊與清晰交界處處理得極其自然,光影在水霧上的折射顯得通透而生動。
在如此近距離的微距鏡頭審視下,人物皮膚細節展現出了電影級的高保真度:鼻翼兩側因熱氣熏蒸而泛起的微紅、眼角極其細微的疲憊干紋,甚至是皮膚未施粉黛的細膩顆粒感和毛孔的「呼吸感」,都被完美捕捉和呈現,完全打破了以往 AI 生成人物常見的「塑料感」。
更絕妙的是人物的神態動作,當眼鏡被蒙住的瞬間,她下意識地瞇起眼睛,鼻頭輕微皺縮,嘴角卻又不自覺地掛著即將被美食治愈的滿足笑意。
我們進一步嘗試讓「大宋第一狠人」蘇軾穿越回來,錄制「敬自己一杯」的 Vlog。
我們只需給模型設定一個首幀,輸入提示詞,模型就能快速完成分鏡設計、角色演繹和畫面配音。
![]()
提示詞: (蘇東坡舉著酒杯,滿臉通紅,微醺狀態) 第三杯!敬我的「大宋窮游指南」!皇帝把我貶到黃州,我發明了東坡肉;把我貶到惠州,我日啖荔枝三百顆;最后把我扔到海南島(當時那是未開化之地),以為我會哭死?不好意思,我發現那邊的生蠔真的太好吃了,還寫信讓兒子別告訴別人,怕朝廷那幫人跑來跟我搶。把流放活成《舌尖上的中國》,就問你服不服!喝!
來看看效果如何:
可以看到,視頻不僅高度還原了我們設定的視覺風格,更在細節上經得起推敲:聲畫同步率極高,面部微表情隨著臺詞層層遞進。模型展現出了類似專業導演的運鏡意識,通過推拉搖移和景深變化有效掌控了敘事節奏。視頻中的蘇軾全程以一種舉重若輕的姿態講述跌宕人生,既重現了「一蓑煙雨任平生」的豪邁豁達,又精準拿捏了「微醺吐槽」時的詼諧與松弛,感染力十足。
不容忽視的平面「基本功」
在大家的目光都被視頻生成的「演技」吸引時,萬相 2.6 在靜態圖像生成領域也悄然完成了版本迭代。對于一個多模態大模型而言,高質量的平面圖像生成能力依然是其重要的「基本功」。
此次 2.6 版本的圖像生成能力升級,主要體現在對畫面細節的控制力和實用場景的覆蓋,可以說是在「高美學」與「強可控」上同時邁出了一大步。
在基礎的文生圖方面,新模型實現了對藝術風格的「靈魂捕捉」。從提供的測試案例來看,模型對「肌理、色彩、筆觸」等細節的刻畫更為到位。無論是需要特定筆觸感的東方水墨、拉斐爾藝術風格,還是偏向現代設計的數字插圖、毛氈卡通風格,模型都能精準還原。更有趣的是它的「風格融合」能力,比如將「印象派」與「涂鴉」結合,模型能處理得過渡平滑且自然,創作出獨具一格的視覺作品。
![]()
針對容易「翻車」的人物寫實照片,2.6 版本綜合優化了構圖與光影,在一定程度上削弱了以往常見的「AI 塑料感」。實測中,人物神態更加自然,膚質真實感大幅提升,即便是復雜的環境情緒攝影,也能呈現出極具表現力的光影細節。
![]()
更具實用價值的是其在復雜排版和精準控制方面的提升。新版本改善了在圖片中生成中英文文本的能力,這意味著制作帶文字的海報、帶有數據信息的圖表變得更加直接。同時,模型不僅涵蓋了廣泛的歷史文化 IP 元素,還新增了諸如「圖文混排輸出」和「多圖融合生成」等功能,能夠依據邏輯創作出具有敘事性的繪本或復雜的商品組合場景。
![]()
對于有特定需求的設計或商業場景,萬相 2.6 提供了更細致的控制選項。例如,在需要保持商品或角色形象統一時,它提供了商用級的一致性保持能力;在調整畫面氛圍時,用戶可以更精確地控制鏡頭的遠近視角和光影效果。
![]()
提示詞:給這個男生和狗拍一張寫真,男生摟著這只狗,人和狗都很開心,攝影棚柔和燈光,藍色紋理背景。
如果說視頻生成是在探索 AI 動態表達的上限,那么圖像生成板塊的更新,則是在夯實 AI 平面創作的地基,提供了一套更為穩健、多樣的工具集。目前,萬相模型家族已支持文生圖、圖像編輯、文生視頻、圖生視頻、人聲生視頻、動作生成、角色扮演及通用視頻編輯等 10 多種視覺創作能力,已廣泛應用于 AI 漫劇、廣告設計和短視頻創作等領域。
結語
萬相 2.6 的發布,某種程度上標志著 AI 視頻生成正式告別了單純的「抽卡」時代,邁向了精準可控的電影級創作新階段。
過去,我們驚嘆于 AI 的畫質,卻苦惱于它的不可控。而現在,萬相 2.6 用國內首創的角色扮演功能讓「演員」聽話懂戲,不僅能鎖住容貌,更能演繹情緒;用智能分鏡控制讓敘事有了邏輯,從單點畫面進化為連貫的故事篇章。它將曾經昂貴的影視工業特權,折疊進了手機和云端,徹底消除了技術對創意的阻隔。
當燈光、攝影、演員和剪輯都聽命于你的指尖,技術不再是門檻。無論是想做一部「賽博大片」,還是只想發一條朋友圈惡搞 Vlog,都能找到順手的工具。
門檻已經塌陷,工具就在手邊。從此刻起,你的想象力,就是你的生產力。
體驗鏈接:
萬相官網:https://tongyi.aliyun.com/wan/阿里云百煉 API:https://bailian.console.aliyun.com/?tab=model#/model-market/all?providers=wan
文中視頻鏈接:https://mp.weixin.qq.com/s/tgVN9ByxXn5NKDX8bArcgw





京公網安備 11011402013531號