百川發布最強循證增強大模型M2 Plus，打造“醫生版ChatGPT”

IP屬地中國·北京 編輯：沈如風 TechWeb 時間：2025-10-22 16:20:52

10月22日消息，百川智能發布循證增強醫療大模型Baichuan-M2 Plus，同步升級配套應用百小應并開放API。這是百川自8月開源Baichuan-M2以來的又一次重要動作。評測顯示，M2 Plus的醫療幻覺率較通用大模型顯著降低，相比DeepSeek低約3倍，優于美國最火醫療產品OpenEvidence，可信度比肩資深臨床醫生水準。
據介紹，百川M2 Plus首創六源循證推理（EAR）范式，打造“醫生版ChatGPT”，讓大模型技術在輔助臨床診療場景邁過“敢用、可用”關鍵門檻，不僅適合中國醫療環境，在美、日、英的醫療評測中均超過OpenEvidence，代表中國在世界大模型擂臺上再下一城。
目前，接入M2 Plus的百小應已在各大手機應用商店更新，成為"醫生版ChatGPT"。為方便電腦端使用，網頁版（ying.ai）也同步上線。
Baichuan-M2 Plus也提供了標準化API接口，醫院信息化部門、互聯網醫療、大健康服務等各類泛醫學機構，以及從事醫療AI行業的開發者，則可以通過API將循證推理接入服務場景，提升AI服務的醫學專業性。
首創六源循證推理范式
循證醫學（Evidence-based Medicine, EBM）作為現代醫學知識體系的核心范式，是確保醫療決策可信的關鍵。
通用大模型像一個“博學但不可靠”的專家，即便有搜索增強，也會因為知識來源混雜不符合循證醫學范式。
百川不僅主動屏蔽了互聯網的非專業信息來源，只使用權威來源的醫學證據，還在此基礎上構建了從證據、到實踐、再到真實世界反饋六層證據類型的知識體系：
? 原始研究層：索引海量醫學期刊論文4000余萬篇，超過PubMed收錄數量，涵蓋基礎與臨床研究成果，是循證鏈條的起點；
? 證據綜述層：整合系統評價和meta分析等高等級證據，提供經過匯總的研究結論；
? 指南規范層：引入國際和國內權威機構發布的臨床指南、專家共識和行業標準，確保回答符合最新規范；
? 實踐知識層：包含臨床病例報道、一線專家經驗和診療技巧等實用知識，貼近醫療實踐場景；
? 公共健康教育層：匯集權威科普和公共衛生知識，如疾病預防宣教、健康指導等內容，服務大眾健康教育；
? 監管與真實世界層：涵蓋藥監部門公告、臨床試驗登記及大規模真實世界研究數據等信息，以反映最新的監管動態與人群研究結果；
這個金字塔形的“六源”，是一層一層演化而來：原始層回答“事實是否存在”、證據層回答“結論是否一致”、指南層回答“行業如何規范”、實踐層回答“醫生應如何決策”、公共層回答“患者應如何理解”、真實世界層回答“是否存在新風險”。這讓模型從“生成答案”走向“據實回答”，實現了從語言可信度到知識可信度的躍升。
傳統的RAG檢索往往追求“找得到”，而循證檢索追求“找得準”。
M2 Plus采用PICO框架（人群Population、干預Intervention、對照Comparison、結局Outcome）思維，將查詢轉化為結構化醫學問題，并在六源數據庫中進行分層匹配。例如：當輸入“老年OSA患者使用CPAP能否改善高血壓？”時，系統優先在高等級證據（系統綜述、RCT元分析）中搜索，并自動辨識研究質量、樣本量、置信區間與結局指標。
這種方法克服了通用RAG的兩大缺陷：一是缺乏醫學語義理解（無法區分CPAP療效與依從性分析）；二是無法辨別文獻可靠性（新聞與指南同權）。在此基礎上，M2 Plus能夠三步精準鎖定“鐵證”：
第一步，智能提問：自動將用戶問題拆解成多個專業的PICO查詢，進行“地毯式”證據搜索，兼顧精度與廣度。
第二步，精準鎖定：通過自研的Medical Contextual Retrieval技術，完整保留文獻的臨床因果鏈，避免信息割裂。
第三步，證據排序：內置“審稿人”模型，自動評估證據等級（如RCT、meta分析），將最可信、最相關的“鐵證”優先呈現。
如果說“六源循證”解決了醫療AI知識從哪來的問題，“PICO智能檢索”解決了如何快速找到正確證據的問題，那么最關鍵的一步是如何確保AI在手握證據時，不會“自由發揮”、脫離事實胡亂回答。
百川智能在M2 Plus中引入“循證增強訓練”機制，為模型的回答過程“上了一道鎖”，從根本上改變了其生成邏輯，讓它學會“引用，而非臆測”。
首先，在訓練中獎勵“引用”，懲罰“臆測”，準確引用權威來源（如指南、文獻）時會獲得高分，一旦回答脫離了檢索到的證據就會受到懲罰；
其次，內置“證據評估器”，模型被訓練得能夠自動評估檢索到的證據質量，優先采納高可信度的信息（如RCT、meta分析），并將其無縫嵌入到推理鏈中；
第三，句句有據，可回溯、可驗證：經過訓練，M2-Plus的回答風格發生了根本性改變，在輸出關鍵結論時，會自動附上參考文獻、指南出處等來源，這賦予了AI回答更高的可解釋性與可信賴度。
幻覺最低，達到與人類資深臨床專家同等可信度
這種“循證驅動”的生成邏輯，讓M2 Plus幾乎杜絕了無中生有的內容。在多場景評測中，其綜合幻覺率在所有大模型當中最低，相較DeepSeek R1最新版降低3倍，顯著領先OpenEvidence。不僅如此，在病史分析、診斷思路、治療方案等真實復雜的核心醫療場景中，達到了與人類資深臨床專家同等的可信度。
美國執業醫師資格考試（USMLE）是評估臨床知識和推理能力的黃金標準，在此項考試中，M2-Plus取得了驚人的97分，不僅遠超人類考生平均水平，更與GPT-5的成績持平，穩居全球第一梯隊。
中國執業醫師資格考試（NMLE）及格線為360分，M2 Plus取得了568分的“碾壓級”成績，在所有公開測試的主流大模型中位列第一。
中國碩士研究生招生考試臨床醫學綜合能力（西醫）考試中，M2 Plus在此項考試中取得了282分。通常，能考到280分以上的考生，都是協和、北醫等頂尖學府的頭部學霸。
另外，在日本、英國、澳大利亞等國高級醫師職稱晉升考試中，M2 Plus的準確率85%以上，遠超各國及格線。
百川智能表示，通過開源Baichuan-Ｍ2、發布Baichuan-Ｍ2 plus、百小應，開放API，百川致力于持續提升AI醫療在真實臨床場景的可用性，推動大模型在嚴肅醫療場景進入落地可用新階段。（果青）

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

浩云長盛彭軼峰：兼容并蓄和系統性思維是應對IDC行業急速迭代的生存法則

硅谷還在Vibe Coding，中國AI搶先！一句話做應用能不能賺錢？

一場“無人”的馬拉松 | 兩說

OpenAI被曝正尋求千億美元融資，估值或達7500億美元

新華視點｜全鏈發力逐夢星空河南打造商業航天產業“星”征程

上海國際網文周發布出海報告：拉美市場崛起，全球市場格局重塑

全站最新

浩云長盛彭軼峰：兼容并蓄和系統性思維是應對IDC行業急速迭代的生存法則

硅谷還在Vibe Coding，中國AI搶先！一句話做應用能不能賺錢？

一場“無人”的馬拉松 | 兩說

OpenAI被曝正尋求千億美元融資，估值或達7500億美元

熱門推薦

Gemini3Flash 正式面向 Perplexity Pro 與 Max 用戶開放

字節跳動推出 TRAE CN 企業版，助力高效編程

浩云長盛彭軼峰：兼容并蓄和系統性思維是應對IDC行業急速迭代的生存法則

硅谷還在Vibe Coding，中國AI搶先！一句話做應用能不能賺錢？

自研視頻生成大模型全球受追捧，國產AI視頻服務加速全球化進程

美銀：印度已成全球最活躍AI大模型市場，龐大年輕人口淪為硅谷“試驗田”

一場“無人”的馬拉松 | 兩說

OpenAI被曝正尋求千億美元融資，估值或達7500億美元

新華視點｜全鏈發力逐夢星空河南打造商業航天產業“星”征程

菜鳥聯手天貓超市加碼淘寶閃購

上海國際網文周發布出海報告：拉美市場崛起，全球市場格局重塑

華為MatePad 11.5平板2026款現身官網，最高12GB+256GB規格

全球首款商用2nm手機芯片：三星Exynos 2600規格再曝

郭明錤：AI危機倒逼蘋果激進創新

“特斯拉延期交付機器人是卡在靈巧手上，中國靈巧手遙遙領先”