近日,谷歌 DeepMind 聯合 MIT、哈佛發布了一篇長達 71 頁的論文,提出了一項突破性成果:他們開發了一種能幫助科學家自動生成“專家級科研實證軟件”的 AI 系統。該系統結合大語言模型(LLM)與樹搜索(tree search),首先通過 LLM 生成代碼,再利用樹搜索在巨大的解空間中系統地探索與改進,能在數小時至數天內完成人類需要數月才能完成的科研編程任務。
這一方法已在多個科學領域展現出“專家級成果”,包括生物信息學、流行病學、地理空間分析、神經科學、時間序列預測和數值分析,且往往優于現有人類頂尖方案。論文強調,AI 通過主動檢索并整合外部復雜的研究思想,實現了“超人表現”,為加速科學發現提供了一條通用路徑。
![]()
圖|相關論文(arXiv)
現代科研越來越依賴軟件,從化學模型、天氣模擬、流體力學建模,到社會系統預測,背后都是復雜的代碼。然而開發適用于特定領域的代碼通常需要長達幾年繁瑣的工作,且過程極其依賴研究者的直覺和經驗,漫長的耗時極大限制了科學探索的效率。
研究團隊將這些科學難題稱為“可評分任務”(scorable tasks),定義為可通過“實證軟件”(empirical software)解決的科學問題,而“實證軟件”就是科研中所有為了最大化特定評估指標而設計的軟件(例如對已有觀測的擬合程度)。
該研究開發的 AI 系統旨在系統并且自動地生成可以解決“可評分任務”的“實證軟件”,結合大語言模型與樹搜索算法來更新迭代軟件以提高軟件的質量評分。
![]()
圖|LLM 與樹搜索自動生成科研軟件的流程示意圖(arXiv)
首先,用戶提供具體的問題描述、評價指標以及相關數據,接下來 LLM 根據這些線索生成候選 Python 代碼,而候選程序都會在沙盒環境中運行并得到一個質量評分。接著樹搜索程序會參考每個方案的得分,不斷選擇哪些候選解法值得進一步改進和擴展。
研究團隊提出了 PUCT(Predictor + Upper Confidence bound applied to Trees)樹搜索算法,收到 AlphaZero 的上置信界(Upper Confidence Bound UCB)啟發,通過平衡開發和探索來選擇新的候選程序。該系統的另一大關鍵是能夠探索并整合來自外部來源的研究想法。這些想法可能來自科學論文、教材或搜索引擎(包括 Gemini Deep Research 和 AI co-scientist 等 LLM 工具),會被注入 LLM 提示以指導代碼生成。
研究團隊通過 2023 年的 16 場 Kaggle 比賽來開發和完善 AI 代碼變異系統,并且與排行榜上的人類參賽者進行對照校準以取得高分。
![]()
圖|Kaggle 實驗結果(arXiv)
上圖展示了 AI 系統在這 16 場比賽中的平均公共排行榜百分位數表現:樹搜索(TS)方法的表現顯著優于單次 LLM 調用,甚至優于 1000 次 LLM 調用中最好的結果。在樹搜索過程中,AI 會不斷發現新的策略,使得分數出現“跳躍式”提升,而這些累積的躍升最終帶來了最高質量的解決方案。
實驗也說明在提示中加入針對具體問題的建議,能大幅提升表現。在“TS + 專家建議”實驗中,研究員向模型提供了贏得 Kaggle 比賽的常見經驗性指導;在“TS + Boosted Decision Tree (BDT)”實驗中,模型被要求從零開始實現一個決策樹庫,而不使用現成的標準包。
![]()
圖|單細胞批次整合過程示意圖(arXiv)
研究團隊在六個不同的科學領域基準任務評估該方法,并且得到超過人類最新方法的表現。
在基因組學領域,這一系統在單細胞 RNA 測序(scRNA-seq)的批次效應消除任務中表現突出,研究員使用了 OpenProblems 批次整合基準來測量模型表現。面對高維且稀疏的數據,該系統不僅成功去除了混雜的批次效應,同時還保留了生物學信號。
系統共提出了 87 種全新的單細胞數據分析方法,其中 40 種都在 OpenProblems 排行榜上超越了人類專家開發的最佳模型。最具代表性的成果之一是 BBKNN (TS),它通過對現有方法 ComBat 與 BBKNN 的重新組合,實現了“理念重組”的突破,使整體表現比最佳已發表方法提升了 14%。
![]()
(arXiv)
研究團隊還交給了 AI 系統前沿的全腦神經活動預測任務,評估基準為斑馬魚全腦神經元活動預測基準(ZAPBench),目標是對超過 7 萬個神經元的全腦活動進行建模和預測。實驗表明,AI 系統在大多數預測范圍內都優于所有基線模型,包括此前表現最佳的 Unet 視頻模型;在一步預測任務中,專門設計的模型也達到了領先水平。
AI 系統進化出了能夠結合豐富特征集、時間卷積、學習到的“全局腦狀態”、神經元特定嵌入的模型。研究團隊同時探索性地將“生物物理神經元模擬庫(Jaxley)”整合進預測方案,進一步提升了模型的表現與解釋力。這一探索僅是概念驗證,卻預示了 AI 在科學研究中不僅能擬合數據,還可整合科學原理(如生物物理模擬),為構建更可解釋的模型開辟了新道路。
參考資料
https://arxiv.org/abs/2509.06503
運營/排版:何晨龍



京公網安備 11011402013531號