![]()
智東西
作者 陳駿達
編輯 漠影
智東西10月23日報道,昨日,百川智能正式推出了Baichuan-M2 Plus醫療大模型,這也是業內首個“循證增強”醫療大模型。該模型在百川今年8月開源的Baichuan-M2醫療推理模型的技術基礎上升級而來,是百川在醫療AI領域的最新探索。
M2 Plus的核心亮點在于其首創的六源循證推理(Evidence-Argumented Reasoning, EAR)范式。這一創新機制對通用大模型在醫療領域長期存在的幻覺問題,提出了有效解決方案,讓AI不再“閉門造車“,而是有理有據地回答問題。
評測顯示,M2 Plus的醫療幻覺率較通用大模型顯著降低,僅為DeepSeek-R1最新版的1/3左右,甚至優于美國最受歡迎的醫療AI產品OpenEvidence。
更令人矚目的是,在多項國際與國內權威醫學考試中,M2 Plus均展現了超越人類醫生的水平:它在美國執業醫師資格考試(USMLE)中取得97分的高分,與GPT-5位列全球第一梯隊。
在中國執業醫師資格考試(NMLE)中,M2 Plus以568分的成績,遠超及格線360分,領先于所有公開測試的主流模型。
這一系列成績不僅展示了M2 Plus在醫療知識運用上的領先優勢,也凸顯了“循證增強”方法在解決醫療AI幻覺問題上的潛力。
一、幻覺成大模型落地醫療最大難點,循證醫學如何成為可靠出路?
長期以來,醫療AI面臨的最大瓶頸便是“幻覺”問題。通用大模型在醫療應用中,往往表現為“知識豐富但不可靠”。即便加入了檢索增強或知識庫接入機制,也難以完全避免錯誤或虛構內容。
這種不確定性在醫療領域尤為致命,因為一條錯誤的建議可能帶來嚴重后果。正因如此,盡管中國并不缺乏醫療AI產品,但醫院對其實際采用始終相對謹慎。
而在大洋彼岸,美國的OpenEvidence卻成功實現了落地。數據顯示,美國已有約40%的醫生在臨床場景中注冊使用該產品,每月咨詢量高達1650萬次。
與通用大模型不同,OpenEvidence的最大亮點是有理有據的醫療問答。例如,它能從海量文獻中搜索相關信息,為醫生決策提供清晰、有依據的回答。
![]()
OpenEvidence的成功為業界提供了重要啟示:要讓AI在醫療領域真正落地,關鍵不僅在于“大模型”本身,而在于是否遵循了現代醫學的核心邏輯——循證醫學(Evidence-based Medicine, EBM)。
循證醫學理念誕生于20世紀90年代,強調醫學決策必須建立在系統整合的最佳研究證據、醫生臨床經驗以及患者真實需求的基礎上。它摒棄了“憑經驗行醫”的傳統模式,而強調科學、客觀、可驗證的診療路徑。
在實踐上,EBM遵循完整的“5A流程”:提出問題(Ask)、檢索證據(Acquire)、評估質量(Appraise)、應用結果(Apply)以及持續評估(Assess)。其中核心思想是讓所有臨床判斷都“有據可依”。
在這一框架下,醫學知識被劃分為從低到高不同可信度的層級,最可靠的研究位于金字塔頂端,如系統綜述、meta分析或隨機對照試驗(RCT)。這種分層機制通過關注最強的證據,以最大限度地減少偏倚,并增加做出最佳臨床決策的可能性。
![]()
百川智能正是從循證醫學理念中汲取靈感,提出了“六源循證推理范式”。他們認為,循證不應只是醫生的工作原則,更應成為智能系統的底層原則。
基于此,百川在模型設計上引入了“證據分層+PICO檢索+動態更新”的邏輯,使模型能夠像醫生一樣識別、篩選并權衡不同層級的醫學證據,最終打造出Baichuan-M2 Plus這一業內首個循證增強的醫療大模型。
二、首創六源循證推理范式,讓AI回答“有理有據”
循證醫學強調有據可依,因此,百川在知識來源上下了大功夫。他們首先屏蔽了互聯網的非專業信息來源,只使用權威來源的醫學證據,并在此基礎上構建了從證據、到實踐、再到真實世界反饋六層證據類型的知識體系。
從基礎到應用,六源循證范式實現了從知識廣度到可信度的全覆蓋。
最底層是原始研究層,索引了超過4000萬篇醫學期刊論文,數量甚至超過PubMed收錄量,這些基礎與臨床研究成果構成了循證鏈條的起點,用來回答“事實是否存在”。
第二層是證據綜述層,整合系統評價和meta分析等高等級證據,提供經過多項研究匯總后的結論,回答“結論是否一致”。
第三層為指南規范層,匯聚國內外權威機構發布的臨床指南、專家共識和行業標準,確保模型的回答符合最新醫學規范,回答“行業如何規范”。
第四層是實踐知識層,收錄臨床病例報道、一線專家經驗和診療技巧等實用內容,更貼近真實的醫療場景,回答“醫生應如何決策”。
第五層為公共健康教育層,整合權威科普與公共衛生知識,用于健康教育與患者溝通,回答“患者應如何理解”。
第六層是監管與真實世界層,涵蓋藥監部門公告、臨床試驗登記及大規模真實世界研究數據,反映最新的監管趨勢與人群研究結果,回答“是否存在新風險”。
通過這六層結構,M2 Plus將原始研究到權威指南的信息系統整合,使模型在生成醫學結論時從根本上做到“有據可依”。
![]()
不過,光是找到證據還不夠,百川智能在循證檢索中追求的是找到最準確、最可靠的醫學信息。
M2 Plus借鑒了循證醫學常用的檢索框架PICO,即人群(Population)、干預 (Intervention)、對照(Comparison)、結局(Outcome),并打造了基于PICO的搜索系統,讓大模型具備臨床醫生式的提問與檢索能力。
這一框架把查詢轉化為結構化醫學問題,并在六源數據庫中進行分層匹配。強化學習驅動的多層PICO查詢生成機制,可將用戶問題拆解為多個專業的PICO查詢,進行“地毯式”證據搜索,兼顧精度與廣度。
在搜索算法的基礎上,百川自研了Medical Contextual Retrieval技術,使每段檢索文獻片段在分割、召回與排序中均能保留完整的PICO語義線索,減少因信息割裂造成的錯誤。
此外,PICO搜索系統還擁有PICO-aware重排序模型,能像審稿人一樣自動評估證據等級,并將最可信、PICO匹配最完整的鐵證優先呈現。
“六源循證”和“PICO智能檢索”,分別解決了醫療AI知識從哪兒來和如何快速找到正確證據這兩大關鍵難題。然而,要輸出可靠的醫學結論,仍需模型具備循證推理與專業判斷的綜合能力,使其不僅能“找對證據”,更能“用對證據”。
百川智能在M2 Plus中加入了“循證強化訓練”機制,幫助模型提升材料鑒別力和回答準確率,鼓勵模型優先選擇權威信源,同時懲罰無憑無據的臆測,對正確的材料引用提供額外的引用格式獎勵,最終打造出M2 Plus模型“規范引用+遵循事實求證”的回答風格。
這一機制保證了模型在手握證據時,不會“自由發揮”、脫離事實胡亂回答,賦予了AI回答更高的可解釋性與可信賴度。
三、當AI學會循證醫學,一線醫生評價如何?
六源循證+PICO智能檢索+循證強化訓練的配合,讓M2 Plus的幻覺大幅減少。在多場景評測中,其綜合幻覺率在所有大模型當中最低,僅為DeepSeek-R1的1/3,也低于OpenEvidence和GPT-5等海外頭部產品。
![]()
M2 Plus還在多國醫療考試中,大幅領先于人類醫生。美國執業醫師資格考試(USMLE)被廣泛視為評估臨床知識與推理能力的全球權威標準。該考試難度極高,即便經驗豐富的臨床專家,成績突破90分也屬罕見。最新測試顯示,Baichuan-M2 Plus在USMLE中取得97分,顯著高于人類考生平均水平,其表現與GPT-5相當,位列全球領先陣營。
在中國,執業醫師資格考試(NMLE)及格線為360分,一般而言,考生能取得450分以上屬于高分,超過500分被視為“學神”級別。M2 Plus在該考試中取得568分的成績,在所有公開測試的主流大模型中位列第一,顯示其對中國臨床指南和醫療實踐的掌握已達到較高水平。
![]()
在難度更高、知識面更廣、題目設計極為復雜的中國碩士研究生招生考試臨床醫學綜合能力(西醫)上,M2 Plus取得了282分的成績。對人類考生而言,能考到280分以上的往往都是都是協和、北醫等頂尖學府的頭部學霸。
同時,在日本、英國、澳大利亞等國高級醫師職稱晉升考試中,M2 Plus的準確率達85%以上,遠超各國及格線。
考試之外,M2 Plus也獲得了臨床醫生的高度認可。北京天壇醫院的熊醫生在研究目前PACAP在偏頭痛中的研究進展時發現,相關的研究越來越多,想找到真正有價值的文獻并不容易,多數大模型給出的答案都因幻覺問題而不可用。
搭載M2 Plus的百小應,則能夠在數分鐘內整合來自不同來源的最新研究結果,自動進行主題聚類與邏輯歸納,避免信息冗余和誤導性解讀,把科研人員從繁雜的文獻搜索中解放出來,聚焦于科研創新與臨床思考。
![]()
回答鏈接:
https://ying.baichuan-ai.com/share/SH731370758926341
在試用百小應后,熊醫生評價道,它“能梳理全球PACAP偏頭痛研究,從機制到III期臨床試驗自動串聯證據鏈,不僅回答問題,更讓醫生站在未來看科研進展。”
接入M2 Plus的百小應的也能提供高效的信息檢索能力。醫生在臨床工作中,難免遇到病史特殊,考慮可能為罕見病的特殊病患,檢查結果均無法指向某個疾病。此時,百小應可以輔助整合信息,推測出潛在的罕見病,幫助醫生快速制定檢查方法。
![]()
回答鏈接:
https://ying.baichuan-ai.com/share/SH731290135638021
智東西對M2 Plus在臨床指南查詢場景的表現進行了實際體驗。以往,每當新的國際或國內指南發布,醫生通常需要花費大量時間手動檢索和比對舊版與新版內容,尤其是在多學科交叉的疾病領域,這一過程不僅信息量巨大,還容易遺漏關鍵更新。
如今,醫生只需在百小應中輸入問題:“2025年ADA指南有哪些更新?”,系統即可準確理解提問意圖,并快速檢索相關醫學文獻和指南,梳理出核心更新要點。
百小應的每一條回答均有據可依,同時提供文獻鏈接,醫生不僅可以驗證AI輸出的內容,還能基于這些權威來源進行更深入的研究,從而大幅提升臨床指南學習的效率與準確性。
![]()
回答鏈接:
https://ying.ai/share/SH733407702581253
目前,接入M2 Plus的百小應已在各大手機應用商店更新,成為“醫生版 ChatGPT”。為方便電腦端使用,網頁版(ying.ai)也同步上線。
Baichuan-M2 Plus也提供標準化API接口,醫院信息化部門、互聯網醫療、大健康服務等各類泛醫學機構,以及從事醫療AI行業的開發者,可以通過API將循證推理接入服務場景,提升AI服務的醫學專業性。
結語:醫療AI進入“循證增強”新階段
Baichuan-M2 Plus的發布,標志著醫療 AI 進入“循證增強”的新階段。一線醫生每天面對繁重的臨床決策壓力,尤其是在基層和中小醫療機構,患者數量多、資源有限,知識更新又迅速,常常需要在短時間內做出高風險的判斷。
通過首創的“六源循證”推理范式,M2 Plus將循證醫學原則嵌入AI系統底層,使模型在復雜醫學知識運用上可靠性顯著提升,有效降低幻覺率,為臨床醫生的決策提供了有力輔助,有望緩解人手不足和信息滯后的壓力,成為提升醫療服務質量的一條可能路徑。M2 Plus還有望為廣大患者及家屬提供真正可靠的醫療AI服務,幫助他們理解診斷、治療、預后及檢查背后的科學邏輯。
從Baichuan-M2的開源,到M2 Plus的發布,再到百小應的升級,百川智能正推動 AI 在真實臨床的落地應用,讓大模型在嚴肅醫療場景真正可用,代表中國在全球醫療AI領域取得又一突破。





京公網安備 11011402013531號