![]()
新智元報道
編輯:桃子 好困
就在OpenAI剛剛教會GPT-5.1人情世故的同一天,一款2.4萬億的國產大模型證明了,AI不僅能懂人情,還能更好地理解世界。
2.4萬億參數,原生全模態模型今天殺到了!
一經發布,這款模型的預覽版就在多模態理解、指令遵循、創意寫作、智能體規劃等40+核心賽道表現驚艷。
這一次,出手的還是中國AI。
![]()
![]()
![]()
![]()
左右滑動查看
2025百度世界大會上,文心新一代模型——文心5.0重磅發布。
作為「原生全模態」模型,它從底層架構上實現了一次深刻的變革。
![]()
為何這么說?
與業內主流的多模態AI不同,文心5.0從訓練之初融合了語言、圖像、視頻、音頻等多模態數據。
而且,它還支持文、圖、視、音的聯合輸入與輸出,實現「原生」的統一理解和生成。
由此,文心5.0具備了強大的多模態理解和推理能力。
![]()
大會現場,文心5.0以「武林外傳」佟湘玉的口吻二創「甄嬛傳」。「AI甄嬛」妙語連珠,出人意料的演繹瞬間點燃全場。
今天,文心5.0 Preview同步上線文心App;開發者和企業用戶可通過千帆大模型平臺,調用文心大模型5.0 Preview API。
百度創始人李彥宏表示,「智能本身是最大的應用,而技術迭代速度是唯一護城河」。
文心5.0 Preview一手實測
同在今天,OpenAI也甩出了新王牌——GPT-5.1系列,雙模型同時登場,主打一個智商情商雙在線。
![]()
好巧不巧的是,文心5.0和GPT-5.1升級亮點頗有默契:
智力拉滿,情商在線,而且語言風格自然更像人,還能讀懂模糊指令背后的真實意圖。
舉個栗子——
開會前手一抖,咖啡全潑身上了!所有人都盯著我看,他們會不會覺得我是個傻子啊……
天吶,沒想到文心5.0 Preview可以切身體會個人感受,冷靜分析心理過程,更像一個AI朋友,給予安慰和鼓勵。
![]()
GPT-5.1在情緒安撫上也做得不錯,但又不如文心5.0 Preview細致入微,更加貼心。
![]()
與此同時,文心5.0 Preview在大模型競技場LMArena上的亮眼成績——文本排行榜全球并列第二、中國第一,也讓歪果仁為之震撼。
![]()
![]()
![]()
左右滑動查看
現在,進入文心一言網頁版、文心APP以及千帆API平臺,即可上手試用最新的文心5.0 Preview模型了。
![]()
接下來,我們開啟了一波最全面的實測。
全模態,更好地理解世界
上傳一段OpenAI播客視頻(開篇節選),讓文心5.0 Preview去提取視頻內容。
要實現這一點,需要AI對視頻可以進行多模態解析,包括語音識別、內容提取,并生成一份結構化的內容摘要。
在近1分半視頻中,模型一下抓住了三人對話的核心討論點——ChatGPT名字的誕生。
包括關鍵對話和互動細節,都給出了對應的原文。
![]()
相比之下,GPT-5并不能直接從視頻中轉錄語音。
也就是說,我們需要把視頻和音頻分開上傳才行。
![]()
GPT-4o沒說自己不行,但是從給出的回答來看,這段所謂的「內容摘錄」完全就是驢唇不對馬嘴。
![]()
再來一段特斯拉FSD行駛的視頻,考一考文心5.0 Preview的場景理解能力。
要真正理解這段視頻,可不只是「識圖」那么簡單。
除了基本的視覺輸入、語音/文字識別,AI還需要有「空間理解」的能力,可以看到物體之間的相對位置。
同時,還需具備動態感知的能力,進行時間依賴的時序建模。
可以看到,文心5.0 Preview給出了堪稱完美的分析過程,從核心場景、車輛行為與FSD邏輯,到人類觀察者的反應,以及技術亮點、視頻核心意圖。
![]()
不管是動作的先后順序,比如車減速后,避讓鵝群再行駛;還是更細致的「導航界面」和「真實環境」,比如車速、前進擋(D)、倒車擋(R),以及攝像頭畫面。
文心5.0 Preview是在真正的「理解世界」,而不只是識別像素。
![]()
來一段《無間道》的經典片段,看看文心5.0 Preview能否抓到人物之間對立沖突的細節。
![]()
抖音「有戲影視」
沒想到,它準確定位「42秒-51秒」是片段中最緊張的幾秒。
這一過程,AI需要同時完成多線作戰,包括畫面與音效,威脅/請求等話語行為,角色意圖等,才能捕捉到視頻中沖突的變化——
從語言上的相互試探,轉向了拔槍特寫的畫面沖突。
可以看出,文心5.0 Preview還能理解人物情緒的變化過程,一眼抓住了兩人的微妙的表情:
劉建明從最初的懇切請求,逐漸轉為說出「那就讓我死」的堅定與緊張;陳永仁從不耐煩與其周旋,最后直接冷臉道出「我是警察」的身份。
![]()
再來一個情緒變化更細膩的短片。
咱們先讓文心5.0 Preview點評下男主的演技,并讓它寫一段100字的小紅書文案。
先來看演技,文心5.0 Preview能夠圍繞角色情緒爆發背后,一個遞進的層次去分析,并用了一些高密度的形容詞——
壓抑后的爆發
情緒是攢出來的
痛不是演出來的,是滲出來的.....
這些獨到的描述,顯然是基于對人物情緒深度理解,才可以得出。
文心5.0 Preview能夠結合視頻的音頻畫面情節,對情緒、行為、文字進行綜合分析。
結尾給出的小紅書文案抓住了「情緒破防點」,更加自然有人味,而且還生成了tag,符合平臺的風格。
![]()
除了視頻,我們還可以把一連串圖片扔給文心5.0 Preview。
這里,將姚順宇個人領英、主頁介紹等相關截圖上傳,讓模型做一段人物介紹。
僅靠簡單OCR是不行的,它需要先識別文字內容,然后再推斷這些圖像之間的主題關聯所在。
它需要將分散在多張截圖中的零散內容,整合出一條人物主線:
教育經歷——研究方向——職業生涯——科研成果
這恰恰又體現了,文心5.0 Preview所具備的語義聚合與邏輯重構的能力,可以把異質數據拼成一致的敘事。
![]()
一個視頻理解難不倒文心5.0 Preview,接下來,就要上點難度了。
最近火遍全網的《一點點》舞蹈,下面挑選了兩段不同風格的視頻,讓文心5.0 Preview做一個點評。

可以看出,它可以針對動作風格、表情管理、服裝適配度、情緒傳遞不同維度,給出一個總結性的評價——
第一位女生:活力四射、力度感強,充滿青春感染力
第二位女生:甜美可愛、柔和細膩,充滿治愈感
一一點評之后,還有一個可視化表格清晰列出了她們各自風格、動作特點等。
![]()
柯南破案邏輯,完美拆解
文心5.0 Preview還可以做多模態推理,針對復雜場景做出分析判斷。
《名偵探柯南》中圖書館殺人事件,是許多人心目中「童年陰影級」劇集,案件設計堪稱經典。
文心5.0 Preview能否化身偵探,分析出17分鐘劇集中柯南的查案過程呢?
顯而易見,它將復雜劇情,拆解成可驗證的小步子。
初始線索里,圖書館中的異常書籍不僅用收縮膜包裹,還被反放在盒子中。隨著劇情推進,它還推斷出書架異常擺放的「三排書」的線索。
另一條關鍵線索便是「電梯藏尸」,文心5.0 Preview精準捕捉到一開始,柯南和小伙伴趕電梯卻超重的環節,并通過驗證得出結論。
從金川館長作案流程,到柯南斷案過程,文心5.0 Preview做了整合推理,得出了一條柯南破案邏輯鏈:
異常書籍→書架藏毒品→電梯超重→尸體藏在電梯天花板→館長行為異常→指認兇手。
![]()
把「力拔山兮」寫成代碼
在前段時間熱播的《喜人奇妙夜2》中,《技能五子棋》這個節目可以說是火遍了各大社交媒體。
它的魔性旋律血洗全網,有網友化身唱跳達人,還有人靈感迸發二創,更有人將日常生活填進旋律。
從普通網友到當紅明星,不同圈層的人,很難不卷入這場狂歡之中。
有趣的是,就連AI圈也未能幸免。
在最近的評測中,做一個「技能五子棋」游戲,幾乎成為了每個模型都要面對的代碼必答題

不過這次,我們不是簡單地讓AI隨便生成一個,而是要真正「復刻」出里面的技能——飛沙走石,靜如止水,力拔山兮。
把「魔性」的臺詞直接加入prompt里,很快,文心5.0 Preview就生成了近700行代碼,并在最后附上了游戲的玩法說明。
prompt:
幫我做一個技能五子棋的游戲網頁,要求是在普通的五子棋規則上,玩家可以使用技能,其中包括飛沙走石,靜如止水,力拔山兮。「飛沙走石」,是把對手的棋子直接扔進什(石)剎海;「靜如止水」是凝結時間,把對方「速凍」;「力拔山兮」是摔壞棋盤,直接獲勝。黑棋和白棋的技能點要分開算,并且每走一步都可以累加。直接給我html文件,畫面要美觀。
![]()
沒想到,如此「抽象」的臺詞,文心5.0 Preview竟然就這么水靈靈地理解了:
·飛沙走石:隨機移除對手的一個棋子。
·靜如止水:凍結對手,使其下一回合無法落子。
·力拔山兮:直接宣布獲得游戲勝利。
而且,模型也很好地遵循了我們的prompt,設計了一個相當美觀的界面。
![]()
在試玩之前,我們先來簡單介紹這款「技能五子棋」。
畫面右上角顯示的是,當前是哪位玩家的回合,以及各自擁有的技能點。其中,玩家每走一步都會獲得1個技能點(SP)。
右側則是技能名稱,以及它們消耗的點數:飛沙走石(2 SP),靜如止水(4 SP),力拔山兮(8 SP)。如果攢夠了相應的技能點,選項框就會亮起。
右下角是重新開始按鈕,以及一個展示玩家歷史操作的滾動窗口。
接下來,比賽開始。
剛開局,黑棋就用「飛沙走石」送走白棋的一枚棋子,搶占了優勢,

緊接著,白棋使出「靜如止水」連下兩子,讓黑棋瞬間陷入被動。

千鈞一發之際,率先攢夠8個技能點的黑棋,毫不猶豫點下「力拔山兮」,把白棋一波帶走,實現翻盤。

完整過程如下:
告別「拼接」,原生全模態登場
原生全模態,不是多模態的「加法」。
一提到多模態AI,人們可能想到的是,將語言、圖像、視頻、音頻等不同數據「拼接」起來的模型。
當前,業界大多都采用了這種「后期融合」方式的多模態模型。
但文心5.0不同,它從根源上構建了一個統一的架構,即新一代「原生全模態大模型」。

自訓練伊始,文心5.0融合了語言、圖像、視頻、音頻等多模態數據,實現了文、圖、視、音的聯合輸入與輸出。
這樣一來,文心5.0就能真正做到原生的全模態理解與生成。
不過在此之前,百度團隊克服了業內普遍面臨的難題:
原生多模態架構的「理解與生成一體化」
一般來說,傳統方法往往先是處理單一模態,再將所有模態數據融合。這種方法看似優雅,實則會帶來很多致命的問題。
后期融合只在輸出層進行,也就是說,每個模態的特征在融合之前,就已獨立決策完成。
這樣的AI根本學不到模態之間的「深層語義交互」,比如視頻中,人物表情和語音語調高度相關,進而造成信息丟失。
文心5.0通過精細建模多模語義特征,讓理解和生成相互增強。
同時,它還采用了「自回歸統一結構」,對不同模態的訓練目標進行離散化建模,確保了多模態特征在統一框架下充分融合并協同優化,由此提升了全模態統一建模的能力。
在參數規模上,文心5.0總參數超過2.4萬億,業界公開參數的模型之最。
更關鍵的是,它引入了超稀疏混合專家架構,進行龐大的全模態訓練。
其激活參數比例低于3%,在保持強大能力的同時,顯著降低計算和推理成本。
訓推雙引擎,成本驟降
要讓萬億級全模態MoE真正跑得動、跑得快,團隊在訓練與推理上同時開刀,構建了一套高效的訓推體系。
1. 高效全模態超稀疏混合專家分布式訓練
在訓練階段,依托飛槳框架,他們研發了多模態編碼器分離異步訓練架構、動態自適應顯存卸載技術,以及細粒度通信計算重疊編排專家并行技術。
同時,結合FP8混合精度訓練,實現了對萬億級參數全模態超稀疏混合專家模型的高效訓練。
結果,文心5.0預訓練性能較基準提速230%。
2. 多級分離架構的全模態統一高性能推理
在推理階段,文心5.0采用了「多模編碼器-預填充-解碼-多模生成器」的多級分離推理部署框架。
此外,團隊還研發了面向超稀疏混合專家、數據負載和注意力計算的均衡算法,以及動態自適應多步投機解碼和效果無損低比特鍵值緩存量化技術。
在推理成本上,文心5.0得到大幅壓縮,真正實現了效率與能力的平衡,讓其更接近實用。
此外,衡量一個模型能否從實驗室走向實際應用,長程任務的指標是最重要的衡量因素之一。
為了提升文心5.0長程任務的能力,團隊基于大規模工具環境,合成了長程任務軌跡數據。
然后,在預訓練和后訓練階段,基于思維鏈和行動鏈對文心5.0進行「端到端」多輪強化學習訓練。
由此可見,文心5.0的智能體和工具調用能力,得到了顯著的提升。
文心又回來了!
過去兩年,多模態模型已迅速崛起,成為驅動AI時代發展的核心引擎。
與傳統大語言模型不同,它突破了單一文本的限制,通過無縫融合圖像、音頻、視頻等多源信息,實現了更接近人類的綜合理解與生成能力。
放眼全球,在這場AI大戰中,OpenAI、谷歌等硅谷巨頭早已在多模態賽道上搶先布局。
OpenAI發布GPT-4o時,便向世界生動展示了多模態AI應有的交互形態——
一個統一的神經網絡,無縫處理文本、音頻、視覺等多種模態的輸入與輸出。
![]()

而谷歌的Gemini系列,更是從誕生之初便被烙上了「原生多模態」的印記。
他們在技術報告中,多次強調了原生多模態與非原生的差異。
![]()
![]()
CEO Demis Hassabis也曾明確表示,Gemini的目標就是要讓一個模型能原生地理解圖像、音頻和視頻。
最終,實現與物理世界的真實交互。

視線轉回國內,阿里、字節等頭部大廠同樣在多模態賽道上重兵布局。而在眾多路徑中,百度選擇了一條更效率導向的道路——「原生全模態」。
![]()
原生全模態,意味著模型從訓練的第一天起,就如人類一般,活在視覺、聽覺與文字交融的統一感知中。
和嬰兒一樣,它學習世界的方式是通過所有感官的同步輸入來形成認知。畢竟,人類的思考從來都不是「先看再聽再想」的線性接力,而是所有信息洪流的同步融合。
這之中的核心,便是將每一幀畫面、每一段聲音、乃至每一個詞語,都轉化為一套統一的離散符號流,并置于同一個自回歸框架下建模。
也就是說,當你輸入一段街頭藝人表演的視頻,探尋「背后的故事」時,AI不再是割裂地解析畫面、分析音頻,最后拼湊答案。它能在一個統一的語義空間中,同步完成感知、推理與敘事,像人類一樣,給予一個完整而深刻的回應。
正是憑借這種全模態的內在優勢,文心5.0得以突破復雜場景的束縛,為AI的未來應用開啟無限想象。
更值得一提的是,文心的實力,早已超越了實驗室的范疇,在真實應用中形成了技術落地的閉環。
發布會現場,與百度連線的「AI老羅」便是最好的證明。他不僅能輕松做出「點贊、比心、比耶」的互動三連,更在問答環節中,將羅永浩本人「犀利吐槽」的語言風格模仿得惟妙惟肖。

技術基于慧播星高說服力數字人
如今,當理解與生成走向統一,當技術與應用協同共生,人機智能的邊界也正悄然消融。
在這場全球大模型的激烈角逐中,文心正以全新姿態,強勢回歸!





京公網安備 11011402013531號