![]()
機器之心報道
機器之心編輯部
多模態的生成,是 AI 未來的方向。
最近,AI 領域的氣氛正在發生微妙的變化。比如,剛剛推出了 Grok 4 的 xAI 卻在重點宣傳他們的視頻生成模型 Grok Image。
與此前使用文字提示生成視頻的方式不同,新一代的工具已經實現全鏈路覆蓋:先用文字或語音生成圖像,再用圖像生成視頻。你也可以直接上傳圖片來生成視頻,還能自帶音效,然后一鍵發到社交媒體瘋狂轉發。

如果說很長一段時間里,我們印象中的 AI 還停留在寫稿子、畫張圖,那么現在,它們已經能一鍵生成一部「電影級大片」了。不得不說,這就像是正在進行的一場工業革命:過去需要整支團隊、大量資金和很長周期才能完成的創意性工作,現在只需要一張圖片、一段文本指令就能實現。
就在今天下午,百度把視頻生成 AI 技術推向了新的高度,其全球首發中文音視頻一體化模型百度蒸汽機(MuseSteamer)2.0,實現了生成視頻中人物口型、表情、動作的毫秒級同步
這個 7 月初首次亮相的視頻生成模型,從剛開始合成高質量音效到如今音畫高度一致,完成了質的飛躍,讓國產 AI 視頻真正邁入到了「有聲有色」的全新階段。
![]()
百度蒸汽機全系視頻模型 & 應用升級發布會現場。
在人物口型與語音毫秒級對齊之外,表情、動作同樣自然流暢,連運鏡都像是出自大師之手。從角色對白到鏡頭推進,仿佛背后真有一個經驗豐富的導演在操控。

此次,百度蒸汽機 2.0 對Turbo 版、Lite 版、Pro 版及有聲版本來了一波全方位升級,并全部開放給用戶使用。各個模型版本在視頻分辨率、生成時長以及主打特性上各有側重,為不同創作需求提供了靈活選擇,其中:
Turbo 版可生成分辨率 720p 和時長 5s 的視頻,適合快速體驗與廣泛應用;Lite 版是 Turbo 更輕量級的版本,生成速度更快,成本更低,適合追求效率和性價比的用戶使用;Pro 版輸出分辨率 1080p 和時長 5s,主打高分辨率與電影級質感,適合追求高畫質的創作者;最后是有聲版,分辨率 720p 和時長 5s/10s,專注于音畫一體的沉浸式體驗,是此次的重頭戲。
與此同時,百度蒸汽機 2.0 在價格這塊也極具競爭力,全系價格僅為國內主流競品的 70%,Turbo 版生成 5 秒有聲視頻限時價格僅為 1.4 元,這就為用戶帶來了更高的性價比。
![]()
百度商業體系商業研發總經理劉林在活動中
目前,用戶既可以在百度搜索、百度 APP 以及各個手機瀏覽器的百度搜索入口直接進行體驗,也可以登錄百度蒸汽機的應用平臺「繪想」進行創作。
繪想平臺地址:https://huixiang.baidu.com/
一張圖、一段話,便能生成有聲視頻。真的有那么神奇嗎?帶著這個疑問,我們對百度蒸汽機 2.0 來了波實測。
第一手實測
AI 生成的人物對話,就像在演情景劇
在「繪想」用戶界面,我們可以看到,百度蒸汽機 2.0 全系模型現已正式上線。
用戶上傳的首幀圖支持 JPEG、PNG、WEBP 等多種格式,并且可以根據自己的需求自由選擇是否加入背景音。
![]()
我們「牛刀小試」,來個單人吃播場景,音畫同步的效果可以說是杠杠的。
動作整體保持流暢,畫面清晰度和亮度都比較穩定,沒有明顯的閃爍或抖動;眨眼、嘴角咀嚼的一些細小動作也讓人物更加地鮮活。
![]()
不過,既然百度蒸汽機 2.0 有聲版的核心亮點之一是「多人對話互動」,我們重點測了一波多人場景,看看它是否能拿捏住不同角色和復雜語境。
我們先讓模型復現 OpenAI 發布 o1 時的景象,將 o 系列前核心架構師 Hyung Won Chung 的介紹轉換成中文,說起來還是很溜的。
![]()
最近國產動畫電影《浪浪山小妖怪》大賣,我們找一個截圖,讓幾位主角(小豬妖、蛤蟆精、黃鼠狼精和猩猩怪)來場對話。
整體看下來,動作切換沒有出現明顯的「卡頓」或機械感,流暢度很高;此外,各個主角的面部細節與神態轉換也很自然。
![]()
打了一場大勝仗的 AI「丞相」,開心地扇著小風扇,終于可以享受享受了。
![]()
除了中文,英文語境同樣可以 hold 住。多個人加上多個動物,也能表現出穩定的效果,貓頭鷹的腦袋在以正確的方式轉動。
![]()
側臉場景也能穩穩拿下。最近,OpenAI 被 meta 挖人挖麻了,雙方在人才戰中火藥味十足。這兩家 AI 巨頭的 CEO 面對面坐下來之后,會發生怎樣有趣的對話呢?
口型與聲音的同步雖不如正臉那樣嚴絲合縫,但保持了基本的自然銜接,兩人的動作與神態演繹得相當到位,包括肢體起伏、眨眼細節,更貼近真實場景。
![]()
進一步測試中,我們嘗試了不同運鏡語言下的畫面生成
例如,生成一段車水馬龍的延時攝影,它能精準模擬車流的動態變化和時間流逝的效果,紅白交織的車燈在畫面中迅速閃現,呈現出延時攝影中常見的快速移動感和光影交錯的美感,畫面自然連貫,幾乎看不出什么瑕疵。
同時,背景音的加入也為整體畫面增添了真實感。
![]()
提示詞:快速的延時攝影,熙熙攘攘的車流極快速行駛,出現一道道紅白相間的燈光,車輛行駛的聲音需背景音
多個鏡頭語言疊加的場景中,模型同樣表現出色
比如下面這則視頻,鏡頭一開始聚焦于男人,隨后平滑轉移到身后的女孩,鏡頭推拉與焦點切換的過程都非常流暢,畫面絲毫沒有出現崩壞或突兀的情況。
![]()
提示詞:聚焦于看向女孩的男人,鏡頭焦點隨后轉移到女孩身上,她自信地看向鏡頭并擺出姿勢
經過數輪測試,我們發現百度蒸汽機 2.0 的主要優勢在于一步到位 —— 相比于其他視頻生成模型,它生成的內容音畫俱全,而且需要再次調整的地方較少,經常能夠達到直接可用的程度。
為讓 AI 學會「編劇」,革新模型架構
從最初只能生成扭曲畫面、配點塑料音效 bgm,到如今的電影級運鏡,人物聲音精準對上口型,AI 視頻生成需要跨越一條艱難的技術鴻溝。要真正做到「有聲有色」,模型必須同時攻克以下兩大核心難題。
一是時序對齊,視頻是按幀生成的,而語音是連續波形,這就導致兩者的采樣率和時間粒度不同。因此,音畫同步首要解決的便是口型與語音的毫秒級對齊,較高的延遲會給人「口型對不上聲」的不適感。二是多模態特征融合,語音不單單要對上口型,其自身還承載了節奏、情感、力度,它們與表情、動作、環境的協調決定了畫面是否自然,因此模型要能理解并生成跨模態細粒度特征,比如語調對應的面部微表情變化。
此外,模型還要解決長時序生成與連貫性,數秒甚至十數秒內保持音畫一致;環境音效與動作的匹配,如走路有腳步聲、門開有開門聲;以及多角色場景的交互,要精確定位到誰在說話、誰在聽,保證不同聲音與對應人物同步,避免多人口型重疊或者角色錯位。
今年 5 月推出的谷歌 Veo 3 解決了音畫同步面臨的絕大多數挑戰,但仍有不足,比如聚焦單人場景,多角色交互雖然也能生成,但規劃性與自然度不足。另外,它雖支持多語言,但非英文場景體驗很差。這些都限制了本土創作者的發揮空間,于是更符合「中國創作者體質」的百度蒸汽機應運而生。
作為國內首個支持聲畫同步的視頻生成模型,蒸汽機的參數體量達到了百億,在實現畫面與音效、人聲協同創作的同時,更在多角色互動、豐富運鏡、跨場景表達方面深度優化。此前在權威視頻生成評測基準的圖生視頻榜單 VBench I2V 中,蒸汽機 1.0 以 89.38% 的總分成為了全球第一。
![]()
榜單地址:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard
2.0 版的成績我們暫時還不知道,不過在實際體驗上,新版本的蒸汽機相對于 1.0 版在指令遵循、運鏡能力、敘事流暢度等維度上面取得了顯著提升。
從數據到模型,百度蒸汽機 2.0 在技術上帶來了一系列進步。
![]()
在數據方面,模型利用大量多模態數據進行了訓練。在構建數據集時,工程師利用多模態理解模型、語音識別模型對海量視頻語料的多模信號進行抽取、數據清洗和對齊,其中包括內容、主體、人聲、臺詞和環境音的抽取和對齊。百度重點打造了面向中文語音和語境的有聲視頻模型,模型訓練加入了海量精選的中文語料庫,實現了 Veo 3 等模型目前不支持的中文能力。
同時,百度也完成了一些數據生成工作,通過少量專業人工精標,訓練出專精的鏡頭語言理解模型,進而產出海量的運鏡訓練數據。
在實現視頻內容中多角色身份、情感和互動邏輯的統一規劃時,我們會面臨一系列的新挑戰,如角色規劃編排的合理性:需要讓 AI 能夠準確理解用戶的輸入,確定「誰來說」、「什么時候說」;同時也要保證生成角色形神音容的一致性,解決角色的音色、語調、動作和表情跟用戶輸入表達匹配度,以及多角色對話的自然度。
百度蒸汽機 2.0 重點優化了角色間交互的自然度和一致性,以保證有聲視頻的可用率。
在模型架構方面,蒸汽機首創了 LMMP(Latent Multi-Modal Planner),能讓 AI 自行規劃出生成內容里的多個角色身份、他們的臺詞、情感以及互動邏輯,帶來協調一致的畫面生成,呈現出更真實、更具表現力的多人對話互動。
作為一個基于擴散架構的規劃思考模型,LMMP 在視頻生成前期會先生成規劃思考內容,再基于思考內容在擴散中后期完成視頻生成。它最大的特點是將「思考能力」融入視頻生成模型中,在敘事邏輯、鏡頭銜接、動作合理性等方面保持更強的一致性和可控性。
此外, 在完整的音視頻一體化生成系統中,Planner 和視頻生成是端到端訓練優化,以多目標的方式保障規劃思考與視頻內容的正確性。規劃層的思考與生成層的執行相互校正,保證最終輸出的視頻在語義和邏輯等方面更加準確與可靠。
百度工程師表示,未來他們還希望結合長視頻生成技術來實現更好的故事續寫和全局呈現。或許過不了多久,我們就能夠欣賞到 AI 生成的長鏡頭視頻。
需求驅動
AI 的多模態還能更實用
不同于「實驗室里的模型」,蒸汽機開創了應用驅動模型研發的新范式,即由應用需求牽引、從百度自身生態里生長出來。該模型在追求技術指標之外,緊扣百度現有的搜索、內容、商業和云生態,形成了場景催生模型 —— 模型反哺業務的應用閉環。
目前,蒸汽機模型已經深度融入到百度移動生態中,還進一步強化了百度的全鏈路多模態體驗,讓搜索更具表現力,讓內容更具創造力,讓商業更具想象力。對于用戶和企業而言,也獲得了更強的創造力和生產力工具。
創作門檻進一步降低,更多中小型創作者以及普通用戶都有機會參與到專業級視頻的生成中,真正實現「人人皆可導演」。企業借助蒸汽機,可以在商業營銷、產品推廣等相關應用場景中,以更低的成本、更快的周期產出高質量視頻內容。
曾參與《2012》《黑客帝國 3》《變形金剛 3》等多部好萊塢大片以及國產科幻劇《三體》視效工作的姚騏,借助百度蒸汽機 2.0,僅用一周左右就制作出一個時長 2 分鐘的科幻短片《歸途》。該作品共有 40 多個鏡頭,創作過程中每個鏡頭生成 3 次左右,共用 AI 生成了 120 多個片段素材。

《歸途》片段
如果按照傳統影視制作方式,這個科幻短片可能需要花費上百萬,AI 的運用讓這一成本直接降到了幾百塊(約 330 元),簡直是降維打擊
![]()
AI 視頻化表達的前景已經全面鋪開,百度蒸汽機正扮演著「加速器」的角色。
文中視頻鏈接:https://mp.weixin.qq.com/s/xC7vjXpdtR5SI2UPATWEKw





京公網安備 11011402013531號