![]()
打開百度APP暢享高清圖片
![]()
昨天,“智匯醫學 AI無界”浦江醫學人工智能大會暨首屆上海市醫學人工智能應用技能大賽總結會在上海舉行,集中展示了“人工智能+醫療”進入標準化、體系化、全球化新階段的實踐成果。上海人工智能實驗室發布了全新升級的中文醫療大模型評測平臺MedBench 4.0,為衡量醫學AI產品的性能與可靠性提供了科學標尺。
會上,上海人工智能實驗室牽頭的“醫學人工智能評測聯盟”正式成立。這個聯盟將廣泛匯聚國內頂尖醫療機構、權威行業組織和領先科技企業,致力于成為醫療人工智能測評與驗證領域的核心力量,通過聚焦制定臨床導向的評測標準、共建高質量標注數據集,以及探索多模態及智能體融合評測技術路線三大方向,搭建產學研用多方共建的交流合作平臺。
![]()
醫學人工智能評測聯盟在上海成立。
《醫療大模型應用安全實施指南》標準草案在會上同步發布,填補了我國醫療大模型安全應用標準的空白,為技術創新劃定安全邊界,提供實踐準則。復旦大學附屬中山醫院計算機網絡中心副主任張俊欽結合《指南》中的規范條文,提出具體場景的操作要點與風險防控建議,為行業合規應用提供了實用參考。
會上,上海人工智能實驗室發布了全新升級的中文醫療大模型權威評測平臺MedBench 4.0。這是全國首個且唯一面向垂直模型、專業模型和應用場景的醫療大模型評測與驗證體系。此次升級聚焦“實戰化評測突破”與“生態化開放共建”兩大核心方向,包含大語言模型、多模態大模型、智能體三大技術范式,深度對齊國家《衛生健康行業人工智能應用場景參考指引》,覆蓋60個全自主構建評測集,共70萬余專業評測題。
秉持開放合作的原則,上海人工智能實驗室持續與醫療機構、科研院所和領軍企業深化專科評測,并在MedBench 4.0中更新了4項挑戰賽事,包括基于改良評分系統的臨床多輪問診能力自動化測評、中醫臨床科研綜合能力深度測評、兒科真實場景綜合能力和臨床動態進展思維能力雙軌測評、隨機對照試驗循證證據質量評估,優化了評測全場景覆蓋能力。上海人工智能實驗室還搭建了開源醫療大模型園區OpenMedZoo,已開放首個高可靠性醫療安全倫理推理模型SafeMed-R1、全科基層醫生大模型Med-GO等多個項目。
在大會現場的“人機大戰”實戰演示環節,由頂尖醫療團隊與AI大模型同臺競技。此次對決以“胃腸道疾病診療”為命題,由資深消化內、外科主任醫師組成兩支人類戰隊,兩支AI戰隊分別是位列MedBench官方自建榜首的Claude模型,以及上海人工智能實驗室聯合上海交通大學醫學院附屬仁濟醫院、上海第九人民醫院共同研發的胃腸疾病多模態輔助診療大模型。
比賽題目從31例真實案例中現場隨機抽取,四組選手要為一名因食管占位及食管靜脈曲張入院的73歲女性患者病例給出診斷和診療計劃。
兩個AI大模型均在2分鐘內給出結果,兩組人類醫生的完成時間分別為12分01秒、13分50秒,AI大模型在響應速度上優勢明顯。
![]()
上海市衛生健康委副主任羅蒙點評“人機大戰”。
上海市衛生健康委副主任羅蒙點評指出,在疾病診斷方面,胃腸大模型和人類醫生均準確識別出核心問題,將食管腫瘤置于首要病因,病灶識別能力精準;通用模型Claude未能從胃鏡圖像中識別出腫瘤。在診療計劃方面,胃腸大模型能提出內鏡下檢查與治療等關鍵步驟,思路貼近三甲醫生水平;兩組醫生團隊的方案框架正確,但在針對早期癌癥的進一步檢查方面,可以進一步細化;通用模型Claude的診療方案則更偏向內科治療,對外科手術干預等考量尚有欠缺。
“這場比賽印證了AI是醫生的好助手,它能高效處理海量信息,提供循證參考,有效提升醫生的診斷效率及診療技術。”羅蒙說,“未來,AI技術與醫療深度融合,必將實現更強大的醫療服務能力,實現‘1+1>2’的診療效能,為守護人民健康構筑起更堅實的防線。”
原標題:《上海頂尖醫療團隊與大模型比拼“胃腸道疾病診療”,醫學AI評測聯盟成立》
欄目主編:黃海華
本文作者:解放日報 俞陶然





京公網安備 11011402013531號