![]()
新智元報道
編輯:桃子
AI醫療,正成為全球科技巨頭的必爭之地!剛剛,百川智能第二款醫療增強大模型Baichuan-M2正式上線,首發即稱霸全球醫療開源AI,擊敗OpenAI開源模型gpt-oss-120b。
在AI賽道上,醫療領域正成為全球科技巨頭爭奪的「C位」。
想象一下,未來每個人兜里都能揣個「AI私人醫生」,隨時隨地給出診斷,這個畫面是不是超燃?
GPT-5發布會上,一個真實的故事,讓所有人感受到了AI醫療的震撼力量。
![]()
39歲Carolina在一周內,被診斷出三種癌癥,面對晦澀的活檢報告,她手足無措。
當上傳報告到ChatGPT后,幾秒鐘內,復雜的醫學術語被翻譯成淺顯的語言,讓Carolina在恐慌中找到了一絲頭緒,對病情有了初步的了解。
![]()
![]()
這個鮮活的案例,再次點燃了AI醫療的無限可能,也讓人們看到技術如何賦能個體的深層意義。
在這條萬億美金的賽道上,中國隊再次出手了。
今天,百川智能重磅發布Baichuan-M2,一款32B參數的醫療增強開源大模型。
在基準測試中,M2直接吊打OpenAI開源僅5天的gpt-oss-120b,登頂全球開源醫療模型第一。
而且,它還一舉擊敗了除GPT-5之外的所有閉源模型。
![]()
接下來,就來扒一扒這款「醫療卷王」的硬核實力。
全球開源醫療王者,C位出道
繼14B參數M1之后,Baichuan-M2是百川第二款醫療增強開源大模型,專為真實臨床場景定制。
通過端到端強化學習,它在保持通用能力的同時,醫療推理能力直接「起飛」。
在OpenAI的HealthBench評測中,M2的表現非常驚艷,僅以32B參數直接干翻gpt-oss-120b,碾壓Qwen3-235B-A22B-Thinking-2507、DeepSeek-R1-0528、GLM-4.5、Kimi-K2等開源前沿模型。
![]()
甚至,M2把o3、Grok3、Gemini 2.5 Pro、GPT-4.1等閉源頂尖模型也都按在地上摩擦。
![]()
要知道,HealthBench并非是簡單的「刷題」測試,而是基于多輪醫患對話的硬核考核。
今年5月,,由全球60個國家,262名執業醫生共同打造。
![]()
這個基準包含了5000個基于現實場景的多輪醫療對話,每個對話都有醫生定制的評分標準,來評估模型的響應。
具體來說,它覆蓋了緊急響應、醫療上下文理解、溝通能力、全球健康知識、醫學思維五大維度。
![]()
與此同時,OpenAI還推出了HealthBench Hard,從總數據集中調整選中1000個特別復雜的難題作為Hard子集。
此前,在HealthBench Hard評測中,頂尖模型得分沒有一個可以超過32%,甚至很多前沿模型只能拿到0分。
![]()
Arora R K, Wei J, Hicks R S, et al. Healthbench: evaluating large language models towards improved human health[J]. arXiv preprint arXiv:2505.08775, 2025.
而Baichuan-M2和GPT-5成為全球唯二的「學霸」,直接拉高了性能天花板。
這從側面恰恰印證了,M2在解決復雜醫療場景任務上的優秀能力。
![]()
值得一提的是,Baichuan-M2醫療推理能力強化的同時,并沒有犧牲模型的通用能力。
相反,通過高質量數據訓練,讓M2在數學、指令遵循、寫作等通用指標上性能飆升。
與最新開源的Qwen3-32B相比,M2在多方位評測中全面領先。
![]()
相較于gpt-oss-120b,M2以更低部署成本推高了「帕累托前沿」,讓醫院用起來毫無壓力。
采用4bit量化后,模型可在RTX4090單卡部署,成本比DeepSeek-R1 H20雙節點部署降低了57倍。
![]()
同時,它還適配國產芯片,讓醫療機構利用現有硬件即可快速部署。
基于Eagle-3訓練的MTP版本,在單用戶場景下token吞吐提升了74.9%,更適用于急診等高時效場景。
![]()
在多項「考試」中,Baichuan-M2全部通關。那么,在具體實測中,它的表現又如何呢?
代碼數學,通通拿下
首先,來考考M2的通用能力。
草莓「圖靈測試」,根本不用思考,一步解決。

接下來,讓它生成一個繪制太陽系運行動態HTML。在推理過程中,它縝密地列出了設計思路和子任務,隨后瘋狂輸出代碼。

最后,我們就得到了一個設計精美、且直觀的太陽系動態運行圖。

再給它扔一道,最近連GPT-5都翻車的數學方程式求解題,M2神速輸出了正確的結果。

可以看到,不論在簡單問答,還是數學、代碼實測中,Baichuan-M2的表現非常穩定。
而要說M2最拿手的,當然還是專業的醫療任務。
更懂中國人體質,嚴格遵循中國指南
AI醫療的落地,必須考慮地域差異,諸如中外患者特點、醫療服務資源與優勢等等。
比如,肝細胞肝癌在中國,以乙肝相關肝癌為主,而西方更多的是酒精或丙肝相關患者。不同類型的患者,手術風險也不盡相同。
再加上,中國外科手術經驗豐富、手術期管理成熟,中西方指南對于優先哪種治療方案也各有不同。
![]()
舉個栗子,在面對CNLC IIa期(BCLC B期)肝癌患者時,M2果斷推薦了手術切除——解剖性肝右葉切除。
或者是,根據腫瘤具體位置,考慮擴大右半肝切除、右三葉切除等,目標是R0切除。
在此過程中,它嚴格遵守了國家衛健委發布的《原發性肝癌診療指南》(2024版),肝切除是潛在根治性治療,追求長期生存。
![]()
針對同一病癥,gpt-oss-120b卻首選推薦了TACE(經動脈化療栓塞),給出的理由是:符合BCLCB期治療指南,當前情況下手術切除和移植風險不理想。
通過對比,它忽視了手術可行性,略顯水土不服。
![]()
臨床專家表示,這樣的差異在大模型中常見,并非是高下之分,而是基于不同因素權衡之下的最優解。
Baichuan-M2從中國指南對齊、政策適配、患者洞察等多維度優化,讓中國醫生和患者感受到「專屬」服務。
不難看出,對比gpt-oss系列,M2展現出對中國臨床場景的更強適配性。
臨床診療實戰,M2表現極佳
相較于gpt-oss系列,在中國臨床診療場景的問題評測中,M2具備了更強的可用性優勢,堪稱「六邊形戰士」。
![]()
接下來,再看個真實的案例。
一個15歲男孩,持續咳嗽兩個月,逐漸出現了呼吸困難,服用頭孢后無改善,初步診斷為「重癥肺炎」,并伴有心包積液。
![]()
在醫生看來,這并非是普通的肺炎,入院后給男孩做了一系列檢查后,但還沒有拿到進一步支氣管病理檢查結果。
為了進一步明確診斷,醫生將病歷上傳到Baichuan-M2。
![]()
令人欣喜的是,M2就像一位熟練的「AI醫生」,全面復盤了病史、體格、影像和化驗數據。
沒多久,它便鎖定了關鍵線索——支氣管內占位。
![]()
在初步診斷中,它逐條引用了每一項檢查數據,形成了完整的證據鏈。
![]()
此外,M2還預警了呼吸衰竭、心包填塞等風險,并給出應急方案。
![]()
最后,它會提供了下一步檢查與管理建議,形成了一個完整的「閉環」。
![]()
當然,為了確保所有推理過程有跡可循,輸出全部結果后,M2也會提供詳細的參考來源,方便驗證。
![]()
國家兒童醫學中心專家對M2的表現贊不絕口,「在醫學正確性、證據鏈推理、可操作性上,M2展現出極強的專業性,并在風險預警方面的表現可圈可點。
此外,它還將患者既往病史與當前病變聯系,為醫生打開了更廣闊的思路」。
不僅如此,通過與北京市海淀區衛健委、北京大學第三醫院、國家兒科醫學中心等權威機構合作,Baichuan-M2已在多個真實病例中,展現出超越傳統AI的專家級臨床思維。
![]()
核心技術揭秘,強化學習立功
Baichuan-M2的成功,就藏在了一套「黑科技」組合拳里。
從Large Verifier System,到中期訓練(Mid-Training),再到端到端RL、工程優化,每一步都打下了堅實的基礎。
Large Verifier System
在Baichuan-M2構建過程中,Large Verifier System成為了核心,其基于可驗證獎勵強化學習(RLVR),針對醫療場景的復雜性而量身設計。
為什么百川團隊,選擇構建Large Verifier System?
近一年來,大模型后訓練范式發生了重大升級,特別是基于RLVR大規模RL訓練,讓模型在數學、代碼、科學等領域效果爆棚。
這些領域的問題,往往有著明確的答案和可驗證的標準。
比如,在數學問題中,模型的輸出可以直接通過設計驗證是否準確,從而生成可靠的獎勵信號,用于指導模型優化。
然而,醫療問題遠比這些領域復雜的多,傳統RL驗證系統在醫療領域效果不佳。
不同于數學的「對錯分明」,醫療診斷沒有絕對的「標準答案」,同一癥狀可能對應多種疾病,并需要多輪交互和證據鏈推理才能鎖定。
靜態的RL,無法處理這種情境,同時也難以模擬真實臨床中的各種噪聲。
在這個過程中,百川團隊升級了底層原理的認知——
可驗證性才是RL for LLM系統的學習的前提,尤其改善真實場景復雜問題的可驗證性,才是繼續提升模型能力的關鍵。
這一點,與CoT作者Jason Wei最新博客的觀點,不謀而合。
![]()
為此,百川在通用Verifier基礎上,結合醫療場景的獨特性,設計了一套全面的醫療Verifier系統。
核心方法是,通過醫療關鍵子場景的醫生思維數據訓練,讓Verifier與人類醫生的臨床邏輯對齊,再展開端到端強化學習。
簡單說,這不是死板的規則匹配,而是活生生的「醫生大腦」模擬,讓模型在真實醫療任務中越練越牛。
1. 三類「黃金數據」,訓出最強醫生大腦
要讓模型懂醫療,需要「投喂」高質量數據。
百川團隊精心挑選了三種醫療數據作為基礎輸入,每一種都針對不同痛點,層層遞進:
· 患者病歷數據:記錄了海量患者信息和診療細節,很多臨床思維就藏在病歷中,從癥狀描述到診斷推斷,再到治療方案,全是真人醫生的實戰經驗。
· 醫學知識庫數據:包括書籍、論文、指南等硬核資源。這些是醫療大模型的「知識基石」,確保回答符合「醫學常識」和「臨床經驗」,還降低安全風險。
· 通用醫療合成數據:為了適配患者、醫生、護士等多方需求,百川構建了面向不同場景的通用醫療verify任務,覆蓋了八大維度,比如醫學準確性、回答完整性、追問感知等。
2. 患者模擬器:首創AI患者,模擬實戰演練
有了多源數據還不夠,真實的臨床場景,可沒有那么理想化。
患者表達往往具有種種噪聲:因年齡、文化、教育背景等差異,癥狀描述可能模糊帶有偏見,甚至遺漏關鍵信息。
這對傳統RL系統是一大挑戰,它們僅會基于固定答案、規則進行匹配。
百川團隊希望,通過訓練讓M2具備「魯棒性」和「自適應性」。
在噪聲環境下,不僅可以實時重評估診斷假設;還能根據信息質量,動態調整回復策略。
![]()
為了實現這一目標,百川基于此前研究,引入了患者模擬器——一個基于真實病例數據構建的AI系統。
它能特定疾病背景、個體特征和行為模式的虛擬患者,相當于捏一個「AI病人」。
在醫患對話中,它會提供真實的癥狀表達和交互反應,還帶有「人性化噪聲」。
值得一提的是,這是行業首創技術,百川早在今年1月就發表了相關論文,瞬間圈粉無數。
![]()
論文地址:https://arxiv.org/pdf/2501.09484
在多輪對話的RL過程中,虛擬患者與醫生LLM實時互動,生成式Verifier根據這些信息動態生成評分標準,進行優化。
這項技術核心創新在于,把RL的獎勵從靜態函數變成動態生成系統。
也就是說,不再是預定義的死規則,而是基于真實場景特征的活機制。
![]()
這樣一來,大大提升了醫療模型在復雜臨床環境中的適應性和決策質量。
這種「實戰演習」,恰恰讓M2在處理復雜醫療場景的任務中,遠超傳統模型。
中期訓練:醫療領域適應性增強
一般來說,通用大模型在醫療應用中有三大痛點:醫學知識儲備不足、權威性欠缺、時效性滯后。
若是直接進行后訓練(post-training)容易陷入兩難,要么是知識汲取不夠,要么是幻覺加劇。
對此,百川的解法是中期訓練(mid-training),在保持通用能力的同時,輕量高效地增強模型醫療領域的適應性。
這里,百川團隊精選了公共醫學教材、臨床專著、藥品知識庫、最新診療指南和真實病例,形成專業庫。
在數據合成階段,重點強化兩維度——「結構化表達」和「深度推理增強」。
結構化表達:基于知識保真原則,改寫原始文本,提升邏輯流暢度,同時嚴控幻覺引入
深度推理增強:在知識密集段落和關鍵結論處,自適應插入思維筆記,如知識關聯分析、批判性反思、論證驗證、案例推演
在訓練策略上,為了防止通用能力退化,百川用2:2:1配比高質量醫療、其他通用和數學推理數據,并引入領域自約束機制,確保了醫療專業性,以及語言理解、推理能力的雙贏。
具體來說,醫療數據采用雙任務范式,通用和數學數據以通用基座為參考模型,用KL散度約束輸出分布。
這種方案,在醫療知識密度、推理深度和通用性之間,達到了完美的平衡,為后續指令微調打下了堅實基礎。
得益于此,M2不僅在醫療任務上強得一批,更在通用任務中穩如老狗。
端到端強化學習:多階段RL,訓練效率拉滿
在強化學習階段,百川采用了多階段強化學習的策略,把復雜RL任務拆解成可控層次。
針對不同能力目標、數據來源、評測機制,逐步引導模型演進。從醫學常識推理,到患者交互,一層一層提升。
相較于單階段RL訓練,多階段強化能有效分解訓練難度,分階段采集和放大reward信號,能提高模型泛化和魯棒性。
最終,可以保證M2在復雜醫療場景的實戰表現。
![]()
具體來說,百川團隊采用了一個改進版GRPO算作為策略優化算法,并結合了開源社區提出的一些改進,確保多分布多來源數據上強化訓練的穩定與高效。
·Eliminating KL divergence:添加KL會大幅拖慢獎勵增長速率,還額外耗費參考模型計算資源,剔除后可以讓訓練更加高效。
·Clip-higher:提高重要性采樣的剪裁上限閾值,并保持剪裁下限閾值固定,能夠緩解熵值收斂問題,從而讓模型探索新的解決方案。
· Loss normlization:面對多來源數據回答長度不一的痛點,把token級損失除以一個固定最大長度再求和,徹底消除原來GRPO的長度偏見。
·Advangtage normlization:針對多任務學習難度差異,一出優勢計算中「除以標準差」的步驟,大幅提升多任務強化時的策略更新穩定性。
·Dynamic Length reward:當一批樣本中,大多數得分超閾值時,才給高分樣本加一個負相關長度獎勵,鼓勵更短、更高效的輸出,不會限制模型探索高獎勵空間。
在工程優化上,復雜的verify系統讓獎勵評分耗時飆升,百川在verl基礎上,開發了完全異步的rollout+reward流程,基本消除了訓練中的等待時間,讓整個過程絲滑高效。
以上創新,得以讓Baichuan-M2以小博大,還能在實戰中大放異彩,這充分展現了百川團隊深厚的技術實力。
國際醫療AI共識崛起,百川領跑
放眼全球,AI+醫療,絕對是當下最火的科技風口之一。
醫療領域已成為AI發展的首要方向之一,這一點在國際上,已形成了廣泛的共識。
諾獎得主Demis Hassabis曾樂觀地表示,未來十年,AI將會治愈所有疾病,甚至可以助力新能源的開發。
![]()
AI教父Hinton曾多次強調,AI成為每個人的私人醫生,服務數百萬患者;比爾蓋茨也曾預言,未來十年高質量的醫療建議將免費普及。
在美國,這一共識早已轉化為行動。
2025年,美國AI新晉獨角獸中,AI醫療公司占比超過50%。
頭部企業如Abridge、Openevidence、Hippocratic AI吸金無數,資本用真金白銀投票,AI醫療的前景不言而喻。
![]()
就連OpenAI、谷歌DeepMind、微軟等科技巨頭,也將醫療視為核心領域。
如前所述,上周的GPT-5發布會上,奧特曼曾重點分享了ChatGPT在醫療健康領域的價值,并實際應用到了Oscar臨床診斷中。
![]()
然而,與國際上對AI醫療的強烈共識和巨大投入相比,中國在這塊的認知還不夠深入。
在這樣的背景下,百川智能作為國內最早專注醫療領域的大模型創業公司,展現出極具前瞻性的戰略眼光。
成立伊始,團隊就將醫療作為核心方向之一,投入了大量資源構建醫療專用數據集和大模型。
具體來看,百川的AI醫療進展可圈可點。
![]()
同月,團隊在arXiv上發表了M1背后技術——「AI患者模擬器」的論文,這項創新不僅填補了國內醫療AI空白,還為全球提供了可借鑒的范式。
如今,基于患者模擬器,Baichuan-M2歷經半年多迭代升級,在HealthBench等評測中取得了更大的突破。
M2的發布,不僅是醫療領域的新里程碑,更是百川作為中國企業走到世界AI醫療最前沿的生動證明。
它將徹底點燃AI醫療的開源生態,推動AI醫療走向更平權、更智能的未來。
未來,當AI私人醫生普及,每個人都能平等獲取頂尖醫療資源,罕見病不再是絕癥....這不僅僅是AI的逆襲,更是人類健康的革命性飛躍。
這波AI醫療革命,中國AI沖在了最前面。
![]()





京公網安備 11011402013531號