不兒，這誰還能看出是AI演的視頻啊

IP屬地中國·北京 量子位 時間：2025-12-18 18:25:16

金磊發自凹非寺
量子位 | 公眾號 QbitAI
這一次，我真的分不清視頻到底是不是AI生成的了。
來，咱們先來看一下這段演技飆升的視頻片段：

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
prompt：女子泣不成聲，說臺詞：“江辰……你一定要活著回來，好嗎？……答應我”。女子邊說話邊將右手抬起撫摸男子的臉。背景音樂傷感。影視級。
這臺詞、這演技、這眼神、這口型，不說是AI生成的，一般人絕對會以為是哪個電影里的片段。
但重點還不是效果的逼真——
因為這10s的片段，人物對白配音、視頻背景音樂和音效，統統都是通過上面的prompt一鍋出的。
這就是剛剛火山引擎在FORCE原動力大會上推出的最新豆包視頻生成模型Seedance 1.5 Pro。
主打的就是音畫高精同步，一鏡入戲。

就這個功能一出，打造一個有趣好玩的小短片，那真是分分鐘的事情了。
例如我們以這位AI女主角為原型：

然后就可以用Seedance 1.5 Pro搞一個“川劇”——《至辣園》：

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
從這兩個實測案例中，我們不難看出，這次豆包視頻生成模型Seedance 1.5 Pro整體亮點可以總結為：
音畫高精度同步：不論是背景音樂、音效還是人物對話，都能按照劇情發展保持高度一致。支持多人多方言：原生支持如四川話、粵語、上海話、臺灣腔等多種方言，并且精準捕捉方言獨特的韻律和情感張力。影視級效果：不論是視覺、敘事張力、鏡頭語言，都已經達到了真假難辨的程度。語義理解更強：對于鏡頭敘事的理解更加準確，有利于專業級內容的創作；同時，抽卡率也更低了。
目前，Seedance 1.5 Pro已經上線即夢AI和豆包APP和火山方舟體驗中心，大家都可以去體驗哦~
企業用戶自12月23日起，也可以在火山引擎使用該模型API。
那么接下來，我們就通過進一步、多角度的實測，來考驗一下Seedance 1.5 Pro的水平。
不僅好看，還挺好用
AI視頻生成到底夠不夠真，其實最主要需要關注的就是音畫會不會出現bug、夠不夠一致性，運鏡是否夠專業，以及涉及到方言等內容時，是否能夠精準表達等。
因此，接下來的進一步實測，我們就主要圍繞這幾個維度來展開。
音畫夠同步：不會穿幫的那種
我們以即夢為例，Seedance 1.5 Pro生成視頻的操作方式是首尾幀的方式

在這個測試中，我們先上傳這張圖片：

然后附上這么一句prompt：
緩緩拉遠，鏡頭帶輕微震顫，指尖微蜷（隱帶殺勢），衣服隨風飄動。表情眼瞼半垂又驟抬。隨后，急速推近面部特寫，嘴角扯出極淡的冷笑，壓迫感滿滿，并且冰冷蔑視地說話：“憑你也敢挑釁我的權威！”
來看下生成的效果：

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
不難看出，Seedance 1.5 Pro完全get到了prompt要表達的核心要素，并且音畫同步得非常精準，是有點電影里東方不敗的氣場了。
同樣的方法，我們再來一句這樣的prompt：
黑客帝國風格的發布會。純黑背景，只有一束頂光。穿著黑色高領衫的科技狂人，手里把玩著一枚小小的 AI Pin，他舉起AI pin，用冷靜且極具煽動力的男聲：“For the last decade, our smartest devices have demanded our eyes. ……” 緩慢推鏡頭（Dolly In），直到AI Pin 占據整個畫面。

視頻地址：
https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
周潤發百萬級運鏡也能復刻
AI視頻生成的另一個要素便是運鏡的效果了。
在這次實測中，我們就來實測一下Seedance 1.5 Pro是否可以復刻前不久周潤發在MAMA頒獎典禮中的名場面——百萬級運鏡。
我們的首幀和尾幀分別是：

復刻周潤發百萬運鏡的prompt是這樣的：
西裝男子從舞臺深處一直往前走，鏡頭從遠推近到人物的面部，鏡頭環繞切到人物背面，再慢慢往遠處推。

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
嗯，是有那個feel了~
多個人、多語言，統統都能hold住
正如我們剛才提到的，Seedance 1.5 Pro現在可以支持多個人、多個方言“一鍋出”，現在你需要做的就是告訴她“誰，說了什么”。
例如下面的prompt：
畫面中的3個角色對話的情節：首先右邊熊貓用憨厚的四川話說：“我來自中國四川。” 然后左邊的小男孩用西班牙語說：“Yo soy de Espa?a”。接著右邊的熊貓用憨厚的四川話問：“為什么我們說著不一樣的語言，卻能對話呢？”最后中間的小女孩用可愛、開心的音色，微笑著說英語：“Because the AI world is full of magic!” 女孩說完后，停頓一下，3個角色相互看著彼此，開心的笑了起來。全程緩慢的環繞運鏡。奇幻的背景音樂。

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
從上述多個深度實測來看，Seedance 1.5 Pro確實是做到了音畫精準同步、影視級鏡頭和理解、支持多人對話和方言。
總體體驗下來，方便、快，或許就是最直接的感受了，只要不是過于復雜的場景，基本都是“一條過”。
不過目前Seedance 1.5 Pro還不支持參考圖生成的方式，不然在操作上會更加靈活。
但除此之外，火山引擎總裁譚待今天在現場還劇透了一個即將推出的新功能——Draft樣片。
這個功能要解決的還是AI視頻生成中的一個老大難的問題：抽卡。
簡單來說，就是在真正出成片之前，你可以先生成一個低分辨率的草稿版視頻，用來快速試效果、調方向；同時還能把畫面里的關鍵元素先鎖住，確保和最終成片在內容上高度一致。
這樣每一次修改，反饋都更明確，也更可控，基本能做到“你看到的，就是最后會得到的”。
按照官方給出的數據，Draft樣片能把整體創作效率提升約65%，同時減少60%無效創作成本。
技術底牌也公開了
在AI視頻生成領域，過去我們常說聲畫兩張皮，也就是視頻歸視頻，音頻歸音頻，后期強行縫合。
但Seedance 1.5 pro之所以能做到一鏡入戲，核心在于它把視覺和聽覺從底層邏輯上進行了徹底的同構。
從技術角度來看，主要包含四個方面的工作創新。

△Seedance 1.5 pro 訓推框架圖
首先是原生音視頻聯合生成架構。
不同于傳統的串聯式架構（先視頻后音頻），Seedance 1.5 pro 采用了一套基于 MMDiT（Multi-Modal Diffusion Transformer）的原生聯合生成框架。
它建立了一個雙分支的DiT架構，通過深度跨模態信息交互機制，讓視覺流和聽覺流在潛在空間（Latent Space）里實時通信。
這意味著，當模型生成角色說話的口型時，它同時就在計算對應的音頻波形。這種“雙向奔赴”的架構，從底層消滅了音畫不同步的違和感。
其次是高質量音視頻數據框架。
火山方舟團隊設計了一個極其復雜的多階段數據Pipeline。他們不僅篩選了數以億計的高清視頻，還特別注重音視頻的一致性配比。
通過自動化標注系統，為視頻注入了豐富的視覺描述和匹配的音頻語義信息。這套框架不僅能識別“一個男人在說話”，還能精確標注出“四川話、憨厚音色、帶有環境回聲”等極具細節的特征，為模型打下了深厚的數據底子。
還有一套精細化的后訓練優化流程。
為了讓生成的視頻更有靈性，團隊在預訓練之外，引入了針對音視頻場景定制的RLHF（人類反饋強化學習）算法。通過建立多維度的獎勵模型（Reward Model），從視覺美感、運動連貫性、音頻保真度以及最重要的音畫匹配度進行全方位調優。
一言蔽之，就是反復磨練它在微表情、運鏡張力以及聲音情感表達上的處理能力。
最后就是高效推理加速技術。
視頻生成一向是巨燒算力的任務，但Seedance 1.5 pro在落地體驗上玩了一把大的。
通過多階段蒸餾技術和高效推理加速框架，團隊成功將推理速度提升了 10倍以上。
這意味著專業創作者在即夢或豆包上點擊生成，不再需要漫長的進度條折磨，真正實現了所見即所得。
從實驗和評測結果上來看，也是印證了上述四項技術創新的正確性。

在針對視頻與音頻能力的綜合評測中，Seedance 1.5 pro 在審美（Aesthetics）、運動質量（Motion）以及音畫對齊（Alignment）等核心指標上均處于行業領先地位。
特別是在挑戰性極高的多語言對白和方言口型匹配任務中，其表現顯著優于目前的開源及閉源主流模型。

AI視頻生成，到了真可以上崗時刻
除了Seedance 1.5 pro之外，國內外大模型玩家近期也是密集交卷，視頻生成賽道早已進入周更模式。
但觀察這些密集發布的新作，不難發現一個共同趨勢：它們不再追求單純的像素級高清，而是在向“夠好用”和“夠逼真”這兩個實用維度急速進化。
豆包視頻生成模型Seedance 1.5 pro正是這一趨勢的集大成者。
它不僅解決了演技問題（更細膩的表情和動作），更通過原生的音畫同步，解決了臺詞和情緒的融合問題。
這種從單一模態向全模態創作的跨越，讓AI視頻真正具備了低成本制作短劇、廣告片甚至輔助影視創作的實戰能力。

視頻地址：https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
或許在不久的將來，我們不需要尋找昂貴的配音演員，不需要復雜的后期對口型，甚至連方言的韻律和環境音的質感，AI都能一次性給到。
AI視頻直接上崗時刻，已至。
火山方舟體驗中心地址：
https://exp.volcengine.com/ark/vision?launch=seedance
Seedance 1.5 Pro論文地址：
https://arxiv.org/pdf/2512.13507

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

第42次南極考察人員登陸后有何重點工作？

國產大模型叩響資本市場大門

iPhone最高立減2000多元，數百人排隊搶購榴蓮！海南今起封關，網友已經在看機票了……

1秒定位船舶，語音識別率近九成！吳淞海事局自研系統將推動安全監管向智能化邁進

上海算力綜合指數連續多年居全國前列，在用數據中心達136個

歐盟“撤回”2035全面電動化

全站最新

第42次南極考察人員登陸后有何重點工作？

國產大模型叩響資本市場大門

iPhone最高立減2000多元，數百人排隊搶購榴蓮！海南今起封關，網友已經在看機票了……

1秒定位船舶，語音識別率近九成！吳淞海事局自研系統將推動安全監管向智能化邁進

熱門推薦

第42次南極考察人員登陸后有何重點工作？

國產大模型叩響資本市場大門

開放第三方支付蘋果在日調整規則

80后億萬富翁出任NASA局長主張與中國太空競爭

iPhone最高立減2000多元，數百人排隊搶購榴蓮！海南今起封關，網友已經在看機票了……

社評：中國科技進步，路透社本不必焦慮

1秒定位船舶，語音識別率近九成！吳淞海事局自研系統將推動安全監管向智能化邁進

上海算力綜合指數連續多年居全國前列，在用數據中心達136個

歐盟“撤回”2035全面電動化

iPhone內存用完就壞了？蘋果客服回應

盛路通信：公司研發的微波模塊組件可應用于衛星通信系統

首創ACE具身研發范式大曉機器人構建具身智能開放新生態

【西街觀察】自動駕駛：該批判的批判，該批準的批準

國產真機首次亮相！中科曙光發布scaleX萬卡超集群

蘋果在日本開放第三方應用商店后，Epic斯威尼痛批“還收垃圾費”