GPT-5.1發布當天，文心5.0殺回來了

IP屬地中國·北京 新智元 時間：2025-11-13 20:15:37

新智元報道
編輯：桃子好困
就在OpenAI剛剛教會GPT-5.1人情世故的同一天，一款2.4萬億的國產大模型證明了，AI不僅能懂人情，還能更好地理解世界。
2.4萬億參數，原生全模態模型今天殺到了！
一經發布，這款模型的預覽版就在多模態理解、指令遵循、創意寫作、智能體規劃等40+核心賽道表現驚艷。
這一次，出手的還是中國AI。

左右滑動查看
2025百度世界大會上，文心新一代模型——文心5.0重磅發布。
作為「原生全模態」模型，它從底層架構上實現了一次深刻的變革。

為何這么說？
與業內主流的多模態AI不同，文心5.0從訓練之初融合了語言、圖像、視頻、音頻等多模態數據。
而且，它還支持文、圖、視、音的聯合輸入與輸出，實現「原生」的統一理解和生成。
由此，文心5.0具備了強大的多模態理解和推理能力。

大會現場，文心5.0以「武林外傳」佟湘玉的口吻二創「甄嬛傳」。「AI甄嬛」妙語連珠，出人意料的演繹瞬間點燃全場。
今天，文心5.0 Preview同步上線文心App；開發者和企業用戶可通過千帆大模型平臺，調用文心大模型5.0 Preview API。
百度創始人李彥宏表示，「智能本身是最大的應用，而技術迭代速度是唯一護城河」。
文心5.0 Preview一手實測
同在今天，OpenAI也甩出了新王牌——GPT-5.1系列，雙模型同時登場，主打一個智商情商雙在線。

好巧不巧的是，文心5.0和GPT-5.1升級亮點頗有默契：
智力拉滿，情商在線，而且語言風格自然更像人，還能讀懂模糊指令背后的真實意圖。
舉個栗子——
開會前手一抖，咖啡全潑身上了！所有人都盯著我看，他們會不會覺得我是個傻子啊……
天吶，沒想到文心5.0 Preview可以切身體會個人感受，冷靜分析心理過程，更像一個AI朋友，給予安慰和鼓勵。

GPT-5.1在情緒安撫上也做得不錯，但又不如文心5.0 Preview細致入微，更加貼心。

與此同時，文心5.0 Preview在大模型競技場LMArena上的亮眼成績——文本排行榜全球并列第二、中國第一，也讓歪果仁為之震撼。

左右滑動查看
現在，進入文心一言網頁版、文心APP以及千帆API平臺，即可上手試用最新的文心5.0 Preview模型了。

接下來，我們開啟了一波最全面的實測。
全模態，更好地理解世界
上傳一段OpenAI播客視頻（開篇節選），讓文心5.0 Preview去提取視頻內容。
要實現這一點，需要AI對視頻可以進行多模態解析，包括語音識別、內容提取，并生成一份結構化的內容摘要。
在近1分半視頻中，模型一下抓住了三人對話的核心討論點——ChatGPT名字的誕生。
包括關鍵對話和互動細節，都給出了對應的原文。

相比之下，GPT-5并不能直接從視頻中轉錄語音。
也就是說，我們需要把視頻和音頻分開上傳才行。

GPT-4o沒說自己不行，但是從給出的回答來看，這段所謂的「內容摘錄」完全就是驢唇不對馬嘴。

再來一段特斯拉FSD行駛的視頻，考一考文心5.0 Preview的場景理解能力。
要真正理解這段視頻，可不只是「識圖」那么簡單。
除了基本的視覺輸入、語音/文字識別，AI還需要有「空間理解」的能力，可以看到物體之間的相對位置。
同時，還需具備動態感知的能力，進行時間依賴的時序建模。
可以看到，文心5.0 Preview給出了堪稱完美的分析過程，從核心場景、車輛行為與FSD邏輯，到人類觀察者的反應，以及技術亮點、視頻核心意圖。

不管是動作的先后順序，比如車減速后，避讓鵝群再行駛；還是更細致的「導航界面」和「真實環境」，比如車速、前進擋（D）、倒車擋（R），以及攝像頭畫面。
文心5.0 Preview是在真正的「理解世界」，而不只是識別像素。

來一段《無間道》的經典片段，看看文心5.0 Preview能否抓到人物之間對立沖突的細節。

抖音「有戲影視」
沒想到，它準確定位「42秒-51秒」是片段中最緊張的幾秒。
這一過程，AI需要同時完成多線作戰，包括畫面與音效，威脅/請求等話語行為，角色意圖等，才能捕捉到視頻中沖突的變化——
從語言上的相互試探，轉向了拔槍特寫的畫面沖突。
可以看出，文心5.0 Preview還能理解人物情緒的變化過程，一眼抓住了兩人的微妙的表情：
劉建明從最初的懇切請求，逐漸轉為說出「那就讓我死」的堅定與緊張；陳永仁從不耐煩與其周旋，最后直接冷臉道出「我是警察」的身份。

再來一個情緒變化更細膩的短片。
咱們先讓文心5.0 Preview點評下男主的演技，并讓它寫一段100字的小紅書文案。
先來看演技，文心5.0 Preview能夠圍繞角色情緒爆發背后，一個遞進的層次去分析，并用了一些高密度的形容詞——
壓抑后的爆發
情緒是攢出來的
痛不是演出來的，是滲出來的.....
這些獨到的描述，顯然是基于對人物情緒深度理解，才可以得出。
文心5.0 Preview能夠結合視頻的音頻畫面情節，對情緒、行為、文字進行綜合分析。
結尾給出的小紅書文案抓住了「情緒破防點」，更加自然有人味，而且還生成了tag，符合平臺的風格。

除了視頻，我們還可以把一連串圖片扔給文心5.0 Preview。
這里，將姚順宇個人領英、主頁介紹等相關截圖上傳，讓模型做一段人物介紹。
僅靠簡單OCR是不行的，它需要先識別文字內容，然后再推斷這些圖像之間的主題關聯所在。
它需要將分散在多張截圖中的零散內容，整合出一條人物主線：
教育經歷——研究方向——職業生涯——科研成果
這恰恰又體現了，文心5.0 Preview所具備的語義聚合與邏輯重構的能力，可以把異質數據拼成一致的敘事。

一個視頻理解難不倒文心5.0 Preview，接下來，就要上點難度了。
最近火遍全網的《一點點》舞蹈，下面挑選了兩段不同風格的視頻，讓文心5.0 Preview做一個點評。

可以看出，它可以針對動作風格、表情管理、服裝適配度、情緒傳遞不同維度，給出一個總結性的評價——
第一位女生：活力四射、力度感強，充滿青春感染力
第二位女生：甜美可愛、柔和細膩，充滿治愈感
一一點評之后，還有一個可視化表格清晰列出了她們各自風格、動作特點等。

柯南破案邏輯，完美拆解
文心5.0 Preview還可以做多模態推理，針對復雜場景做出分析判斷。
《名偵探柯南》中圖書館殺人事件，是許多人心目中「童年陰影級」劇集，案件設計堪稱經典。
文心5.0 Preview能否化身偵探，分析出17分鐘劇集中柯南的查案過程呢？
顯而易見，它將復雜劇情，拆解成可驗證的小步子。
初始線索里，圖書館中的異常書籍不僅用收縮膜包裹，還被反放在盒子中。隨著劇情推進，它還推斷出書架異常擺放的「三排書」的線索。
另一條關鍵線索便是「電梯藏尸」，文心5.0 Preview精準捕捉到一開始，柯南和小伙伴趕電梯卻超重的環節，并通過驗證得出結論。
從金川館長作案流程，到柯南斷案過程，文心5.0 Preview做了整合推理，得出了一條柯南破案邏輯鏈：
異常書籍→書架藏毒品→電梯超重→尸體藏在電梯天花板→館長行為異常→指認兇手。

把「力拔山兮」寫成代碼
在前段時間熱播的《喜人奇妙夜2》中，《技能五子棋》這個節目可以說是火遍了各大社交媒體。
它的魔性旋律血洗全網，有網友化身唱跳達人，還有人靈感迸發二創，更有人將日常生活填進旋律。
從普通網友到當紅明星，不同圈層的人，很難不卷入這場狂歡之中。
有趣的是，就連AI圈也未能幸免。
在最近的評測中，做一個「技能五子棋」游戲，幾乎成為了每個模型都要面對的代碼必答題

不過這次，我們不是簡單地讓AI隨便生成一個，而是要真正「復刻」出里面的技能——飛沙走石，靜如止水，力拔山兮。
把「魔性」的臺詞直接加入prompt里，很快，文心5.0 Preview就生成了近700行代碼，并在最后附上了游戲的玩法說明。
prompt：
幫我做一個技能五子棋的游戲網頁，要求是在普通的五子棋規則上，玩家可以使用技能，其中包括飛沙走石，靜如止水，力拔山兮。「飛沙走石」，是把對手的棋子直接扔進什（石）剎海；「靜如止水」是凝結時間，把對方「速凍」；「力拔山兮」是摔壞棋盤，直接獲勝。黑棋和白棋的技能點要分開算，并且每走一步都可以累加。直接給我html文件，畫面要美觀。

沒想到，如此「抽象」的臺詞，文心5.0 Preview竟然就這么水靈靈地理解了：
·飛沙走石：隨機移除對手的一個棋子。
·靜如止水：凍結對手，使其下一回合無法落子。
·力拔山兮：直接宣布獲得游戲勝利。
而且，模型也很好地遵循了我們的prompt，設計了一個相當美觀的界面。

在試玩之前，我們先來簡單介紹這款「技能五子棋」。
畫面右上角顯示的是，當前是哪位玩家的回合，以及各自擁有的技能點。其中，玩家每走一步都會獲得1個技能點（SP）。
右側則是技能名稱，以及它們消耗的點數：飛沙走石（2 SP），靜如止水（4 SP），力拔山兮（8 SP）。如果攢夠了相應的技能點，選項框就會亮起。
右下角是重新開始按鈕，以及一個展示玩家歷史操作的滾動窗口。
接下來，比賽開始。
剛開局，黑棋就用「飛沙走石」送走白棋的一枚棋子，搶占了優勢，

緊接著，白棋使出「靜如止水」連下兩子，讓黑棋瞬間陷入被動。

千鈞一發之際，率先攢夠8個技能點的黑棋，毫不猶豫點下「力拔山兮」，把白棋一波帶走，實現翻盤。

完整過程如下：
告別「拼接」，原生全模態登場
原生全模態，不是多模態的「加法」。
一提到多模態AI，人們可能想到的是，將語言、圖像、視頻、音頻等不同數據「拼接」起來的模型。
當前，業界大多都采用了這種「后期融合」方式的多模態模型。
但文心5.0不同，它從根源上構建了一個統一的架構，即新一代「原生全模態大模型」。

自訓練伊始，文心5.0融合了語言、圖像、視頻、音頻等多模態數據，實現了文、圖、視、音的聯合輸入與輸出。
這樣一來，文心5.0就能真正做到原生的全模態理解與生成。
不過在此之前，百度團隊克服了業內普遍面臨的難題：
原生多模態架構的「理解與生成一體化」
一般來說，傳統方法往往先是處理單一模態，再將所有模態數據融合。這種方法看似優雅，實則會帶來很多致命的問題。
后期融合只在輸出層進行，也就是說，每個模態的特征在融合之前，就已獨立決策完成。
這樣的AI根本學不到模態之間的「深層語義交互」，比如視頻中，人物表情和語音語調高度相關，進而造成信息丟失。
文心5.0通過精細建模多模語義特征，讓理解和生成相互增強。
同時，它還采用了「自回歸統一結構」，對不同模態的訓練目標進行離散化建模，確保了多模態特征在統一框架下充分融合并協同優化，由此提升了全模態統一建模的能力。
在參數規模上，文心5.0總參數超過2.4萬億，業界公開參數的模型之最。
更關鍵的是，它引入了超稀疏混合專家架構，進行龐大的全模態訓練。
其激活參數比例低于3%，在保持強大能力的同時，顯著降低計算和推理成本。
訓推雙引擎，成本驟降
要讓萬億級全模態MoE真正跑得動、跑得快，團隊在訓練與推理上同時開刀，構建了一套高效的訓推體系。
1. 高效全模態超稀疏混合專家分布式訓練
在訓練階段，依托飛槳框架，他們研發了多模態編碼器分離異步訓練架構、動態自適應顯存卸載技術，以及細粒度通信計算重疊編排專家并行技術。
同時，結合FP8混合精度訓練，實現了對萬億級參數全模態超稀疏混合專家模型的高效訓練。
結果，文心5.0預訓練性能較基準提速230%。
2. 多級分離架構的全模態統一高性能推理
在推理階段，文心5.0采用了「多模編碼器-預填充-解碼-多模生成器」的多級分離推理部署框架。
此外，團隊還研發了面向超稀疏混合專家、數據負載和注意力計算的均衡算法，以及動態自適應多步投機解碼和效果無損低比特鍵值緩存量化技術。
在推理成本上，文心5.0得到大幅壓縮，真正實現了效率與能力的平衡，讓其更接近實用。
此外，衡量一個模型能否從實驗室走向實際應用，長程任務的指標是最重要的衡量因素之一。
為了提升文心5.0長程任務的能力，團隊基于大規模工具環境，合成了長程任務軌跡數據。
然后，在預訓練和后訓練階段，基于思維鏈和行動鏈對文心5.0進行「端到端」多輪強化學習訓練。
由此可見，文心5.0的智能體和工具調用能力，得到了顯著的提升。
文心又回來了！
過去兩年，多模態模型已迅速崛起，成為驅動AI時代發展的核心引擎。
與傳統大語言模型不同，它突破了單一文本的限制，通過無縫融合圖像、音頻、視頻等多源信息，實現了更接近人類的綜合理解與生成能力。
放眼全球，在這場AI大戰中，OpenAI、谷歌等硅谷巨頭早已在多模態賽道上搶先布局。
OpenAI發布GPT-4o時，便向世界生動展示了多模態AI應有的交互形態——
一個統一的神經網絡，無縫處理文本、音頻、視覺等多種模態的輸入與輸出。

而谷歌的Gemini系列，更是從誕生之初便被烙上了「原生多模態」的印記。
他們在技術報告中，多次強調了原生多模態與非原生的差異。

CEO Demis Hassabis也曾明確表示，Gemini的目標就是要讓一個模型能原生地理解圖像、音頻和視頻。
最終，實現與物理世界的真實交互。

視線轉回國內，阿里、字節等頭部大廠同樣在多模態賽道上重兵布局。而在眾多路徑中，百度選擇了一條更效率導向的道路——「原生全模態」。

原生全模態，意味著模型從訓練的第一天起，就如人類一般，活在視覺、聽覺與文字交融的統一感知中。
和嬰兒一樣，它學習世界的方式是通過所有感官的同步輸入來形成認知。畢竟，人類的思考從來都不是「先看再聽再想」的線性接力，而是所有信息洪流的同步融合。
這之中的核心，便是將每一幀畫面、每一段聲音、乃至每一個詞語，都轉化為一套統一的離散符號流，并置于同一個自回歸框架下建模。
也就是說，當你輸入一段街頭藝人表演的視頻，探尋「背后的故事」時，AI不再是割裂地解析畫面、分析音頻，最后拼湊答案。它能在一個統一的語義空間中，同步完成感知、推理與敘事，像人類一樣，給予一個完整而深刻的回應。
正是憑借這種全模態的內在優勢，文心5.0得以突破復雜場景的束縛，為AI的未來應用開啟無限想象。
更值得一提的是，文心的實力，早已超越了實驗室的范疇，在真實應用中形成了技術落地的閉環。
發布會現場，與百度連線的「AI老羅」便是最好的證明。他不僅能輕松做出「點贊、比心、比耶」的互動三連，更在問答環節中，將羅永浩本人「犀利吐槽」的語言風格模仿得惟妙惟肖。

技術基于慧播星高說服力數字人
如今，當理解與生成走向統一，當技術與應用協同共生，人機智能的邊界也正悄然消融。
在這場全球大模型的激烈角逐中，文心正以全新姿態，強勢回歸！

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

設立“虛擬公司”，上海布局合成生物顛覆性技術項目｜跟著項目經理看未來產業

越獄新曙光：iOS 26.2 Beta 1以下版本關鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數據出境安全評估方法》團體標準發布

蘋果2026 iPad路線圖曝光：三款新品齊發，mini迎來史詩級升級

100%國產化！國產機器人靈巧手突破“卡脖子”壁壘

全站最新

設立“虛擬公司”，上海布局合成生物顛覆性技術項目｜跟著項目經理看未來產業

越獄新曙光：iOS 26.2 Beta 1以下版本關鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數據出境安全評估方法》團體標準發布

熱門推薦

設立“虛擬公司”，上海布局合成生物顛覆性技術項目｜跟著項目經理看未來產業

越獄新曙光：iOS 26.2 Beta 1以下版本關鍵漏洞公開

AI巨頭擬500億美元入局AI基建

《汽車數據出境安全評估方法》團體標準發布

蘋果2026 iPad路線圖曝光：三款新品齊發，mini迎來史詩級升級

100%國產化！國產機器人靈巧手突破“卡脖子”壁壘

廣汽能源聯動支付寶推出“碰一下”支付，AI支持選址、動態定價

機降突擊！陸航多型直升機沖向目標地域

科學與健康｜月球也會“生銹”？嫦娥六號月背樣品中首次發現晶質赤鐵礦

馬斯克最新訪談：目標每年在太空部屬100吉瓦AI衛星

未來的iPhone，想靠衛星消滅無服務

2025中國國際石墨烯創新大會在溫州舉行多項關鍵技術取得突破

創新是走出低谷、完成突破的動力（親歷者說）

線下線上齊發力，渝貨出山有實招

觀察|全固態電池商業化時間表成爭議焦點，高成本或阻礙推廣