醫療幻覺率比DeepSeek低3倍，百川循證增強大模型橫掃全球醫學考試！

IP屬地中國·北京 新智元 時間：2025-10-22 18:13:57

新智元報道
編輯：編輯部
時隔兩月，Baichuan-M2 Plus重磅出世！成為業內首個循證增強的醫療大模型，幻覺要比DeepSeek-R1低3倍，可信度比肩資深臨床專家。
AI醫療，已不再局限于一時一地的競賽場，正凝聚為全球共識。
因為，這是一場關乎未來百年，人類生命健康的革命。
不論是谷歌、微軟在內的科技巨頭，還是硅谷AI初創公司、頂級風投機構，紛紛重倉這一賽道。
就在兩天前，成立僅三年的初創OpenEvidence拿下2億美金新融資。其核心產品「OpenEvidence」深受歡迎，每月處理的臨床咨詢量高達1650萬次。

同一天，Anthropic官宣了「Claude生命科學版」，助力科研人員在生命科學領域的研究。

不僅如此，整個科學界正以前所未有的力度，推進醫療AI的探索——
谷歌多模態醫療模型MedGemma，可以輔助人類醫生醫療問答、診斷和研究
微軟AI診斷工具MAI-DxO，對《新英格蘭醫學雜志》病例的正確診斷率高達85%
OpenAI聯手Retro，用GPT攻克分子設計，終極目標逆轉衰老

中國隊的力量，同樣不容小覷。
時隔兩月，Baichuan-M2系列迎來最強迭代。
今天，百川智能重磅發布「首個循證增強的醫療大模型」——Baichuan-M2 Plus。

新模型將「循證醫學」理念深度融入訓練和推理，通過首創「六源循證范式」，模擬人類醫生思維，有效辨別不同層級醫學證據、評估其可靠性，并在回答中優先引用高等級證據。
在多項權威醫學考試中，M2 Plus成績直接拉滿，醫學知識運用能力遠超人類平均線。

此外，這種「循證驅動」的生成邏輯，使其有效避免了無中生有的幻覺，讓可信度比肩資深臨床專家的水平。
在多場景醫療評測中，M2 Plus幻覺率指標，較Deepseek-R1低3倍，并且顯著領先美國最火醫療產品OpenEvidence。

從今天起，M2 Plus全面上線「百小應」APP，同時開放API接口，所有開發者皆可使用。
是臨床「超級外掛」
也是醫學科研神器
Baichuan-M2 Plus在真實臨床場景中表現如何，上手一測便知。

傳送門：ying.ai
精準定位靶向藥，破譯罕見病謎題
舉個真實案例，廣州醫科大學附屬第一醫院的呼吸科醫生遇到一位哮喘患者表現為嗜酸性粒細胞升高、呼出氣一氧化氮升高、總IgE升高，并伴有鼻竇炎，吸入治療效果不佳。
在這種情況下，往往需要考慮「生物靶向」治療。然而，目前哮喘生物靶向藥物種類繁多，比如IgE單抗、IL5/IL5R單抗、IL4R單抗、TSLP單抗。
面對眾多選擇，如何根據患者的病情，去選擇最合適的靶向藥物，是臨床中的常見挑戰。

過去，醫生查閱相關臨床研究、對比分析，需要耗費大量時間。再加上臨床工作繁忙，難以抽出足夠時間深入研究文獻。
這時候，Baichuan-M2 Plus就派上用場了。
收到醫生的問題后，它直接給出了首選和次選推薦，還用表格把每種靶向藥的適應癥、作用機制列得清清楚楚。

在問答最下方，它還清晰給出了所有引用的鏈接，方便信息溯源和查證，真正做到了可信。
這位醫生對百小應贊嘆不已，認為M2 Plus能有效結合患者實際情況，簡化靶向藥選擇過程，足以成為臨床工作的小助手。

科研一把抓，最短時間呈遞最新科研成果
臨床場景之外，Baichuan-M2 Plus在科研上也是一把好手。
比如，作為一名科研工作者或者在讀的醫學生，想要了解——目前PACAP在偏頭痛中的研究進展如何？
在海量文獻中，找到真正有價值的，不僅在臨床中，甚至在科研中并不容易。
M2 Plus就像一個「文獻管家」一樣，直接把PACAP與偏頭痛領域的動態捋出，省得研究者淹沒在PubMed的汪洋里。
如下圖所示，不到1分鐘，M2 Plus便整合出了不同來源的最新研究結果，還自動按主題聚類與邏輯歸納。
比如，提煉關鍵臨床信息，包括機制、標志物、藥物試驗結果等等。

這樣好處在于，科研人員不用分散精力讀取大量文獻，直接聚焦核心證據，一看就抓到痛點，避開那些誤導性解讀。
當他們不再忙于瑣碎的文獻搜索，就會有更多時間，聚焦在提煉出生物學邏輯與新假設上。
值得一提的是，M2 Plus還能將最新臨床試驗，如LuAG09222、PAC1抗體研究的結果，與患者特征匹配，給出基于循證醫學的治療建議。
Baichuan-M2 Plus牛就牛在，它讓科研者可以用最短時間，找到最有力證據，并為患者做出最科學的決策。
再比如，在腎臟病研究這塊兒，尤其是足細胞相關的遺傳病治療，簡直就是科研界的「硬骨頭」。
對于科研人員來說，需要翻閱一堆文獻才能摸清門道。
M2 Plus在很短時間內就能結構化闡述核心關注點，直奔主題并收集呈遞最新科研成果。

不得不說，有了M2 Plus，科研苦差就能走上快車道，直奔轉化應用，加速從實驗室向臨床的跳躍。
不論在科研，還是臨床中，M2 Plus表現同樣驚艷，背后的核心秘訣是什么？
核心技術揭秘
首創「六源循證推理范式」
通用大模型像一個「博學但不可靠」的專家，即便有搜索增強，也會因為知識來源混雜不符合循證醫學范式。
為解決這一問題，百川智能結合對循證醫學的專業理解，引入了「循證增強」（EAR, Evidence-Agumented Reasoning）技術。
其首創的「六源循證范式」，構建了權威、專業和高可靠度的知識體系，讓模型在醫療決策中「有據可依」。
20世紀90年代，加拿大麥克馬斯特大學學派革新了醫學思想，提出了循證醫學（Evidence-based Medicine, EBM），奠定了現代醫學知識體系的核心范式，也是確保醫療決策可信的關鍵。
遵循這一原則，百川團隊提出「六源循證」推理范式，以「證據分層+PICO搜索+動態更新」為核心，讓模型能夠像醫生一樣，區分不同層次的醫學證據、評估可靠度，并在回答中自動優先引用高等級證據，把循證做「全」、檢索做「準」、推理做「對」。
六源證據分層，構建完整醫學證據體系
循證醫學強調有據可依，而互聯網數據魚龍混雜。
因此，在知識的收集階段，團隊主動屏蔽了互聯網的非專業信息來源，只使用權威來源的醫學證據。
在此基礎上，團隊構建了由六層證據類型構成的知識體系，使模型「有據可依」：
· 原始研究層：索引海量醫學期刊論文4000萬篇，超過PubMed收錄數量，涵蓋基礎與臨床研究成果，是循證鏈條的起點；
· 證據綜述層：整合系統評價和meta分析等高等級證據，提供經過匯總的研究結論；
· 指南規范層：引入國際和國內權威機構發布的臨床指南、專家共識和行業標準，確保回答符合最新規范；
· 實踐知識層：包含臨床病例報道、一線專家經驗和診療技巧等實用知識，貼近醫療實踐場景；
· 公共健康教育層：匯集權威科普和公共衛生知識，如疾病預防宣教、健康指導等內容，服務大眾健康教育；
· 監管與真實世界層：涵蓋藥監部門公告、臨床試驗登記及大規模真實世界研究數據等信息，以反映最新的監管動態與人群研究結果；

這「六源」，層層演化，實現了從「語言可信度」到「知識可信度」的躍遷：
原始層：回答「事實是否存在」
證據層：回答「結論是否一致」
指南層：回答「行業如何規范」
實踐層：回答「醫生應如何決策」
公共層：回答「患者應如何理解」
真實世界層：回答「是否存在新風險」
在模型的訓練和推理過程中使用六源循證范式，核心解決的是「知識從哪里來問題」。
而如何「快速找到正確證據」？
核心關鍵——專為醫療設計的PICO檢索框架。
循證檢索：三步精準鎖定「鐵證」
PICO是循證醫學常用的檢索框架。
PICO框架核心包括四要素：研究人群（Patient）、干預措施（Intervention）、對照（Comparison）和結局（Outcome）。
相較于傳統的RAG檢索聚焦「找得到」，循證檢索則聚焦「找得準」。
為了讓大模型真正「能循證」，M2 Plus專門強化了循證醫學場景下的搜索能力，使用PICO框架思維，將查詢轉化為結構化醫學問題。具體技術創新包括：
強化學習驅動的多層PICO查詢生成：多PICO拆解策略，本質是在語義空間中展開一個「證據采樣網絡」。
在Baichuan-M2 Plus的查詢生成過程中，團隊引入強化學習方法進行策略優化。
百川發現，在大量醫療文獻學習后，Baichuan-M2已具備基礎循證知識，能夠進行MeSH、SCR、PT等標準化表述概念的拆解。
因而，團隊先使用上下文蒸餾(Context Distillation）和拒絕采樣（Reject Sampling)，初始化了帶有PICOCot能力的策略模型；
隨后，為了進一步提升Baichuan-M2 Plus的查詢生成能力，團隊將多維度循證質量獎勵信號和PICO格式信號接入Verifier System進行強化學習訓練。
循證質量獎勵信號維度：相關性、覆蓋面、權威性、時效性的多維度
經過優化后，百川團隊發現，M2 Plus不僅能夠按PICO原則，抽象復雜用戶查詢問題，還展現出多查詢策略覆蓋，精度和覆蓋面平衡的效果。
例如，prompt
GLP-1受體激動劑能否幫助肥胖的2型糖尿病患者減重？
經過模型的結構化理解與檢索意圖建模，M2 Plus自動將問題分解為多個語義不同但互補的PICO查詢。
這種多層PICO查詢生成機制讓模型在生成查詢時不僅關注單一命中率，更實現了語義空間的「密集采樣」：
核心查詢聚焦精確匹配權威證據，外圍查詢擴展潛在相關研究，從而在精度與召回之間取得動態平衡。
PICO語義感知與精準匹配：
在搜索算法上，百川開發了Medical Contextual Retrieval技術。
不同于傳統的通用分片方式，百川利用醫學預訓練模型自動識別PICO語義邊界。
將屬于同一臨床語境的句段視為一個檢索單元，從而保留跨段落的臨床因果關系與證據上下文，避免信息割裂。
在檢索階段，系統采用稠密向量檢索與短語匹配融合機制：
稠密向量負責捕獲整體語義相似度，尤其是「人群–干預–結局」間的語義耦合；
短語匹配則用于識別關鍵醫學實體（疾病名稱、藥物組合、干預方式等），通過內置的MeSH實體索引確保高精度召回，避免因語言變體或縮寫導致的漏檢。
在精排階段，百川團隊訓練了PICO-aware重排序模型，綜合考慮：
各段落與查詢在P、I、C、O四要素上的匹配強度；
文獻的證據等級（如RCT、系統綜述、meta分析等）；
語義相關度與上下文一致性。
通過顯式加權機制，使得循證等級更高、PICO匹配更完整的文獻段落，在排序中優先呈現。
在此基礎上，M2 Plus僅需三步精準鎖定「鐵證」：
第一步，智能提問：自動將用戶問題拆解成多個專業的PICO查詢，進行「地毯式」證據搜索，兼顧精度與廣度；
第二步，精準鎖定：通過自研的Medical Contextual Retrieval技術，完整保留文獻的臨床因果鏈，避免信息割裂；
第三步，證據排序：內置「審稿人」模型，自動評估證據等級（如RCT、meta分析），將最可信、最相關的「鐵證」優先呈現；
循證推理：讓模型學會引用而非臆測
如果說「六源循證」解決了醫療AI知識從哪來的問題，「PICO智能檢索」解決了如何快速找到正確證據的問題，那么最關鍵的一步是如何確保AI在手握證據時，不會「自由發揮」、脫離事實胡亂回答。
百川智能在M2 Plus中引入「循證增強訓練」機制，為模型的回答過程「上了一道鎖」，從根本上改變了其生成邏輯，讓它學會「引用，而非臆測」：
首先，在訓練中獎勵「引用」，懲罰「臆測」，準確引用權威來源（如指南、文獻）時會獲得高分，一旦回答脫離了檢索到的證據就會受到懲罰；
其次，內置「證據評估器」，模型被訓練得能夠自動評估檢索到的證據質量，優先采納高可信度的信息（如RCT、meta分析），并將其無縫嵌入到推理鏈中；
最后，句句有據，可回溯、可驗證：經過訓練，M2 Plus的回答風格發生了根本性改變，在輸出關鍵結論時，會自動附上參考文獻、指南出處等來源，這賦予了AI回答更高的可解釋性與可信賴度。
幻覺率最低，比Deepseek-R1降低3倍
當前的AI模型就像一個知識淵博但有時會憑空想象的學生，其普遍存在的會「一本正經地胡說八道」的問題一直困擾著用戶。
這種普遍的「幻覺」問題在醫療和科研等準確性要求極高的領域，尤其無法接受。
百川智能憑借「循證驅動」的生成邏輯，讓M2 Plus幾乎杜絕了無中生有的內容。
在多場景評測中，其綜合幻覺率在所有大模型當中最低，相較 Deepseek R1最新版降低3倍，顯著領先OpenEvidence。

不僅如此，在病史分析、診斷思路、治療方案等真實復雜的核心醫療場景中，達到了與人類資深臨床專家同等的可信度。
北京天壇醫院的熊醫生便是一個典型的案例，他在研究目前PACAP在偏頭痛中的研究進展如何時發現，頭痛相關的研究越來越多，想找到真正有價值的文獻并不容易，多數大模型給出的答案都因幻覺問題而不可用。
他試用百小應時發現，「這款醫療應用非常專業，能梳理全球PACAP偏頭痛研究，從機制到III期臨床試驗自動串聯證據鏈，不僅回答問題，更讓醫生站在未來看科研進展。」
多國醫考斷崖領先
醫學能力超越人類醫生
「循證增強」代表了未來大模型發展的一個重要方向——從追求「無所不知」到追求「言之有據」，推動AI向更可信、更負責任的階段邁進。
評測表明，Baichuan-M2 Plus在「循證增強」訓練后，其醫學知識儲備、醫學知識利用能力大幅領先人類頂尖醫生。
美國執業醫師資格考試（USMLE）是評估臨床知識和推理能力的黃金標準，即便是經驗豐富的臨床專家，要突破90分也極具挑戰。
在此項考試中，M2 Plus取得了驚人的97分，不僅遠超人類考生平均水平，更與GPT-5的成績持平，穩居全球第一梯隊，展示了其世界級的臨床問題解決能力。

中國執業醫師資格考試（NMLE）及格線為360分，對于廣大醫學生而言，能考到450分以上已是高分，超過500分則被視為「學神」級別。
M2 Plus取得了568分的「碾壓級」成績，在所有公開測試的主流大模型中位列第一，充分證明其對中國臨床指南和醫療實踐的掌握已爐火純青。
如果說執醫考是「從業門檻」，那么中國碩士研究生招生考試臨床醫學綜合能力（西醫）考試則是頂尖醫學生競爭的「華山論劍」。
該考試不僅知識面廣，且題目設計極為復雜，對臨床思維要求高。通常，能考到280分以上的考生，都是協和、北醫等頂尖學府的頭部學霸。
M2 Plus在此項考試中取得了282分。同時，在日本、英國、澳大利亞等國高級醫師職稱晉升考試中，準確率85%以上，遠超各國及格線。
這些壓倒性的成績充分說明，M2 Plus 在復雜醫學知識運用上的能力，已經超越了人類醫生水準。
千億美金賽道，百川再下一棋
Baichuan-M2 Plus的正式發布，再一次成為AI與醫療深度融合的催化劑。
從醫生的視角來看，傳統醫療中，醫生往往針對一位患者的疑難雜癥，需要自查文獻，耗費大量精力查證。
而隨著大模型的普及，醫生又有了新的挑戰：患者用DeepSeek自診和帶著DeepSeek就醫的現象越來越多。
醫生雖然知道大模型可能有幻覺和偏頗，但沒有時間和精力去甄別哪句對哪句錯。
而M2 Plus的「六源循證推理范式」則能實時整合多源權威證據，在短時間內，給到精準的診療建議。

目前，百小應已接入最新版本的 Baichuan-M2 Plus 作為核心醫療問答引擎，在各大手機應用商店更新，為方便電腦端使用，其網頁版（ying.ai）也同步上線。
它不僅能夠成為醫生的「專屬武器」，也能讓患者及家屬在希望深入理解診斷、治療、預后、病因、檢查等背后科學邏輯時，便捷的獲得最新最權威的知識、頂尖專家的思維和視角和無限耐心的專業解答。
同時，Baichuan-M2 Plus也提供了標準化API接口，醫院信息化部門、互聯網醫療、大健康服務等各類泛醫學機構，以及從事醫療AI行業的開發者，則可以通過API將循證推理接入服務場景，提升AI服務的醫學專業性。
M2 Plus的上線，標志著醫療大模型正從「答得快」邁向「答得對、有依據」可信可用的新階段。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

浩云長盛彭軼峰：兼容并蓄和系統性思維是應對IDC行業急速迭代的生存法則

硅谷還在Vibe Coding，中國AI搶先！一句話做應用能不能賺錢？

一場“無人”的馬拉松 | 兩說

OpenAI被曝正尋求千億美元融資，估值或達7500億美元

新華視點｜全鏈發力逐夢星空河南打造商業航天產業“星”征程

上海國際網文周發布出海報告：拉美市場崛起，全球市場格局重塑

全站最新

浩云長盛彭軼峰：兼容并蓄和系統性思維是應對IDC行業急速迭代的生存法則

硅谷還在Vibe Coding，中國AI搶先！一句話做應用能不能賺錢？

一場“無人”的馬拉松 | 兩說

OpenAI被曝正尋求千億美元融資，估值或達7500億美元

熱門推薦

Gemini3Flash 正式面向 Perplexity Pro 與 Max 用戶開放

字節跳動推出 TRAE CN 企業版，助力高效編程

浩云長盛彭軼峰：兼容并蓄和系統性思維是應對IDC行業急速迭代的生存法則

硅谷還在Vibe Coding，中國AI搶先！一句話做應用能不能賺錢？

自研視頻生成大模型全球受追捧，國產AI視頻服務加速全球化進程

美銀：印度已成全球最活躍AI大模型市場，龐大年輕人口淪為硅谷“試驗田”

一場“無人”的馬拉松 | 兩說

OpenAI被曝正尋求千億美元融資，估值或達7500億美元

新華視點｜全鏈發力逐夢星空河南打造商業航天產業“星”征程

菜鳥聯手天貓超市加碼淘寶閃購

上海國際網文周發布出海報告：拉美市場崛起，全球市場格局重塑

華為MatePad 11.5平板2026款現身官網，最高12GB+256GB規格

全球首款商用2nm手機芯片：三星Exynos 2600規格再曝

郭明錤：AI危機倒逼蘋果激進創新

“特斯拉延期交付機器人是卡在靈巧手上，中國靈巧手遙遙領先”