金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
這一次,我真的分不清視頻到底是不是AI生成的了。
來,咱們先來看一下這段演技飆升的視頻片段:
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
prompt:女子泣不成聲,說臺詞:“江辰……你一定要活著回來,好嗎?……答應我”。女子邊說話邊將右手抬起撫摸男子的臉。背景音樂傷感。影視級。
這臺詞、這演技、這眼神、這口型,不說是AI生成的,一般人絕對會以為是哪個電影里的片段。
但重點還不是效果的逼真——
因為這10s的片段,人物對白配音、視頻背景音樂和音效,統統都是通過上面的prompt一鍋出的。
這就是剛剛火山引擎在FORCE原動力大會上推出的最新豆包視頻生成模型Seedance 1.5 Pro。
主打的就是音畫高精同步,一鏡入戲。
![]()
就這個功能一出,打造一個有趣好玩的小短片,那真是分分鐘的事情了。
例如我們以這位AI女主角為原型:
![]()
然后就可以用Seedance 1.5 Pro搞一個“川劇”——《至辣園》:
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
從這兩個實測案例中,我們不難看出,這次豆包視頻生成模型Seedance 1.5 Pro整體亮點可以總結為:
音畫高精度同步:不論是背景音樂、音效還是人物對話,都能按照劇情發展保持高度一致。支持多人多方言:原生支持如四川話、粵語、上海話、臺灣腔等多種方言,并且精準捕捉方言獨特的韻律和情感張力 。影視級效果:不論是視覺、敘事張力、鏡頭語言,都已經達到了真假難辨的程度。語義理解更強:對于鏡頭敘事的理解更加準確,有利于專業級內容的創作;同時,抽卡率也更低了。
目前,Seedance 1.5 Pro已經上線即夢AI和豆包APP和火山方舟體驗中心,大家都可以去體驗哦~
企業用戶自12月23日起,也可以在火山引擎使用該模型API。
那么接下來,我們就通過進一步、多角度的實測,來考驗一下Seedance 1.5 Pro的水平。
不僅好看,還挺好用
AI視頻生成到底夠不夠真,其實最主要需要關注的就是音畫會不會出現bug、夠不夠一致性,運鏡是否夠專業,以及涉及到方言等內容時,是否能夠精準表達等。
因此,接下來的進一步實測,我們就主要圍繞這幾個維度來展開。
音畫夠同步:不會穿幫的那種
我們以即夢為例,Seedance 1.5 Pro生成視頻的操作方式是首尾幀的方式
![]()
在這個測試中,我們先上傳這張圖片:
![]()
然后附上這么一句prompt:
緩緩拉遠,鏡頭帶輕微震顫,指尖微蜷(隱帶殺勢),衣服隨風飄動。表情眼瞼半垂又驟抬。隨后,急速推近面部特寫,嘴角扯出極淡的冷笑,壓迫感滿滿,并且冰冷蔑視地說話:“憑你也敢挑釁我的權威!”
來看下生成的效果:
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
不難看出,Seedance 1.5 Pro完全get到了prompt要表達的核心要素,并且音畫同步得非常精準,是有點電影里東方不敗的氣場了。
同樣的方法,我們再來一句這樣的prompt:
黑客帝國風格的發布會。純黑背景,只有一束頂光。 穿著黑色高領衫的 科技狂人,手里把玩著一枚小小的 AI Pin, 他舉起AI pin,用冷靜且極具煽動力的男聲:“For the last decade, our smartest devices have demanded our eyes. ……” 緩慢推鏡頭(Dolly In),直到AI Pin 占據整個畫面。
![]()
視頻地址:
https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
周潤發百萬級運鏡也能復刻
AI視頻生成的另一個要素便是運鏡的效果了。
在這次實測中,我們就來實測一下Seedance 1.5 Pro是否可以復刻前不久周潤發在MAMA頒獎典禮中的名場面——百萬級運鏡。
我們的首幀和尾幀分別是:
![]()
![]()
復刻周潤發百萬運鏡的prompt是這樣的:
西裝男子從舞臺深處一直往前走,鏡頭從遠推近到人物的面部,鏡頭環繞切到人物背面,再慢慢往遠處推。
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
嗯,是有那個feel了~
多個人、多語言,統統都能hold住
正如我們剛才提到的,Seedance 1.5 Pro現在可以支持多個人、多個方言“一鍋出”,現在你需要做的就是告訴她“誰,說了什么”。
例如下面的prompt:
畫面中的3個角色對話的情節:首先右邊熊貓用憨厚的四川話說:“我來自中國四川。” 然后左邊的小男孩用西班牙語說:“Yo soy de Espa?a”。接著右邊的熊貓用憨厚的四川話問:“為什么我們說著不一樣的語言,卻能對話呢?”最后中間的小女孩用可愛、開心的音色,微笑著說英語:“Because the AI world is full of magic!” 女孩說完后,停頓一下,3個角色相互看著彼此,開心的笑了起來。 全程緩慢的環繞運鏡。奇幻的背景音樂。
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
從上述多個深度實測來看,Seedance 1.5 Pro確實是做到了音畫精準同步、影視級鏡頭和理解、支持多人對話和方言。
總體體驗下來,方便、快,或許就是最直接的感受了,只要不是過于復雜的場景,基本都是“一條過”。
不過目前Seedance 1.5 Pro還不支持參考圖生成的方式,不然在操作上會更加靈活。
但除此之外,火山引擎總裁譚待今天在現場還劇透了一個即將推出的新功能——Draft樣片。
這個功能要解決的還是AI視頻生成中的一個老大難的問題:抽卡。
簡單來說,就是在真正出成片之前,你可以先生成一個低分辨率的草稿版視頻,用來快速試效果、調方向;同時還能把畫面里的關鍵元素先鎖住,確保和最終成片在內容上高度一致。
這樣每一次修改,反饋都更明確,也更可控,基本能做到“你看到的,就是最后會得到的”。
按照官方給出的數據,Draft樣片能把整體創作效率提升約65%,同時減少60%無效創作成本。
技術底牌也公開了
在AI視頻生成領域,過去我們常說聲畫兩張皮,也就是視頻歸視頻,音頻歸音頻,后期強行縫合。
但Seedance 1.5 pro之所以能做到一鏡入戲,核心在于它把視覺和聽覺從底層邏輯上進行了徹底的同構。
從技術角度來看,主要包含四個方面的工作創新。
![]()
△Seedance 1.5 pro 訓推框架圖
首先是原生音視頻聯合生成架構。
不同于傳統的串聯式架構(先視頻后音頻),Seedance 1.5 pro 采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生聯合生成框架。
它建立了一個雙分支的DiT架構,通過深度跨模態信息交互機制,讓視覺流和聽覺流在潛在空間(Latent Space)里實時通信。
這意味著,當模型生成角色說話的口型時,它同時就在計算對應的音頻波形。這種“雙向奔赴”的架構,從底層消滅了音畫不同步的違和感。
其次是高質量音視頻數據框架。
火山方舟團隊設計了一個極其復雜的多階段數據Pipeline。他們不僅篩選了數以億計的高清視頻,還特別注重音視頻的一致性配比。
通過自動化標注系統,為視頻注入了豐富的視覺描述和匹配的音頻語義信息。這套框架不僅能識別“一個男人在說話”,還能精確標注出“四川話、憨厚音色、帶有環境回聲”等極具細節的特征,為模型打下了深厚的數據底子。
還有一套精細化的后訓練優化流程。
為了讓生成的視頻更有靈性,團隊在預訓練之外,引入了針對音視頻場景定制的RLHF(人類反饋強化學習) 算法。通過建立多維度的獎勵模型(Reward Model),從視覺美感、運動連貫性、音頻保真度以及最重要的音畫匹配度進行全方位調優。
一言蔽之,就是反復磨練它在微表情、運鏡張力以及聲音情感表達上的處理能力。
最后就是高效推理加速技術。
視頻生成一向是巨燒算力的任務,但Seedance 1.5 pro在落地體驗上玩了一把大的。
通過多階段蒸餾技術和高效推理加速框架,團隊成功將推理速度提升了 10倍以上。
這意味著專業創作者在即夢或豆包上點擊生成,不再需要漫長的進度條折磨,真正實現了所見即所得。
從實驗和評測結果上來看,也是印證了上述四項技術創新的正確性。
![]()
在針對視頻與音頻能力的綜合評測中,Seedance 1.5 pro 在審美(Aesthetics)、運動質量(Motion)以及音畫對齊(Alignment) 等核心指標上均處于行業領先地位。
特別是在挑戰性極高的多語言對白和方言口型匹配任務中,其表現顯著優于目前的開源及閉源主流模型。
![]()
AI視頻生成,到了真可以上崗時刻
除了Seedance 1.5 pro之外,國內外大模型玩家近期也是密集交卷,視頻生成賽道早已進入周更模式。
但觀察這些密集發布的新作,不難發現一個共同趨勢:它們不再追求單純的像素級高清,而是在向“夠好用”和“夠逼真”這兩個實用維度急速進化。
豆包視頻生成模型Seedance 1.5 pro正是這一趨勢的集大成者。
它不僅解決了演技問題(更細膩的表情和動作),更通過原生的音畫同步,解決了臺詞和情緒的融合問題。
這種從單一模態向全模態創作的跨越,讓AI視頻真正具備了低成本制作短劇、廣告片甚至輔助影視創作的實戰能力。
![]()
視頻地址:https://mp.weixin.qq.com/s/_jOBSONTopASkhpZcxVitg
或許在不久的將來,我們不需要尋找昂貴的配音演員,不需要復雜的后期對口型,甚至連方言的韻律和環境音的質感,AI都能一次性給到。
AI視頻直接上崗時刻,已至。
火山方舟體驗中心地址:
https://exp.volcengine.com/ark/vision?launch=seedance
Seedance 1.5 Pro論文地址:
https://arxiv.org/pdf/2512.13507





京公網安備 11011402013531號