![]()
這項由新加坡國立大學的鄒奇然、林厚熙、趙文豪、唐一鳴、陳婷婷、余順盛等學者,以及清華大學、明尼蘇達大學的合作研究者共同完成的重要研究成果,發表于2025年10月的arXiv預印本平臺(論文編號:arXiv:2510.10472v1),有興趣深入了解的讀者可以通過該編號查詢完整論文。這項研究首次系統性地探討了自動化機器學習研究智能體的探索策略問題,并創建了一個全新的評估基準FML-bench來衡量智能體的科研能力。
在當今人工智能飛速發展的時代,科學家們一直在探索一個令人著迷的問題:能否讓AI智能體像人類研究者一樣進行獨立的科學研究?這就像是讓一個智能助手不僅能夠回答問題,還能夠主動提出科學假設、設計實驗并得出結論。然而,如何準確評估這些AI研究助手的真實能力,一直是學術界面臨的重大挑戰。現有的評估方法往往過于注重工程技術細節,就像是只考察廚師切菜的刀法,卻忽略了他們創造美味佳肴的創新能力。
這項突破性研究的核心貢獻在于創建了一個名為FML-bench的全新評估體系,專門用來測試AI智能體在八個基礎機器學習研究領域的表現。這個評估體系就像是為AI研究助手設計的全方位考試,不僅考察它們解決實際問題的能力,更重要的是評估它們在科學探索中的創新思維。研究團隊通過大量實驗發現了一個頗為意外的結論:那些采用廣泛探索策略的AI智能體,比那些專注于深度鉆研單一方向的智能體表現更出色。
一、研究背景:為AI研究助手尋找科學的評估標準
當前的AI技術發展就像是一場激動人心的探險之旅,其中最引人矚目的發現之一就是大型語言模型催生了一批能夠進行自動化機器學習研究的智能體。這些AI研究助手的出現,讓我們看到了科學研究自動化的曙光。它們不僅能夠生成研究創意,還能編寫代碼、管理實驗,甚至在某些情況下充當科學發現的合作伙伴,為研究過程提供互補的視角。
在這些AI研究助手中,最令人印象深刻的是那些能夠自動提出想法并運行實驗的智能體。這類系統的價值在于它們能夠完成從概念構思到實證驗證的完整循環,從而最大化研究自動化程度并加速研究周期。相比那些只負責產生想法,然后依靠人類或其他AI系統評估"新穎性"和"可行性"的方案,這種全流程自動化的方法能夠基于真實的實驗結果進行客觀評估,提供了更加可靠和定量化的效果證據。
然而,目前對這類智能體的評估存在著顯著的局限性。現有的評估基準往往過分強調工程實現層面,就像是評判一位畫家時只看他們調色和握筆的技巧,而忽略了他們的藝術創造力。這些評估方法更關注特征工程、標準化模型訓練和優化等技術執行能力,卻很少關注智能體解決基礎機器學習研究問題的能力,比如表示學習和泛化能力等核心科學問題。
更重要的是,許多現有基準只提供原始數據而不包含基線代碼,這就像是讓廚師在沒有基礎食譜的情況下創造全新菜品一樣困難。這種設計難以系統性地評估智能體的研究能力,同時還引入了編程障礙,可能會掩蓋真正的學術價值。即使有些基準提供了基線代碼庫,它們往往是手工制作的、格式嚴格的代碼,這限制了它們的可擴展性。因為將這些基準適配到新任務通常需要大量重新工程,而不是允許直接使用現有的代碼庫。
二、FML-bench:一個專為AI研究助手設計的科學能力測試平臺
為了解決這些問題,研究團隊開發了FML-bench,這是一個專門用于評估自動化機器學習研究智能體在基礎研究問題上表現的評估基準。這個基準就像是為AI研究助手量身定制的全方位能力測試,包含了八個不同的任務,這些任務反映了現代機器學習中反復出現的核心瓶頸問題。
FML-bench的設計遵循四個重要原則。首先是專注于基礎機器學習問題,設計的任務針對核心科學挑戰而非應用產品或排行榜評分,保持對研究問題的關注。這就像是專注于理解烹飪的基本原理,而不是只追求在廚藝比賽中獲勝。其次是使用真實世界的代碼庫,任務基于現有的研究倉庫實例化,反映了新想法通過適配已有代碼進行測試的典型實踐。
第三個原則是構建時的可擴展性,這個基準可以輕松整合支持端到端訓練和評估的機器學習GitHub倉庫,只需要少量的輸出格式適配器。最后是低編程門檻,智能體不需要從零開始構建整個代碼庫,而是可以從提供的基線開始工作。這種設置使智能體能夠專注于算法和架構的科學進步,而不是純粹的工程努力。
FML-bench包含的八個任務涵蓋了廣泛的基礎問題集合。泛化能力測試通過跨域遷移任務進行評估,模型在源域上訓練并在分布偏移的目標域上評估,目標是最大化域外準確性。數據效率通過少樣本分類任務測試,智能體應該提出改進嵌入空間中基于度量決策規則的方法,以在有限標簽的情況下提升準確性。
表示學習任務要求以自監督方式預訓練編碼器,并通過凍結編碼器的線性探測準確性進行評估,目標是發現有意義的特征。持續學習任務測量在使用共享輸出頭的類增量序列中的知識保持能力,智能體應該提出減輕災難性遺忘并最大化所有任務平均準確性的方法。
因果推理任務在指定的因果數據生成過程下估計治療效果,并最小化平均治療效果的絕對誤差。魯棒性和可靠性評估對抗性損壞的抗性,包括投毒或后門擾動,同時保持干凈性能,防御得分平衡兩個目標。隱私保護通過減少成員推理攻擊的有效性來評估信息泄露防護能力,即降低攻擊的AUC值。公平性和偏見評估在具有敏感屬性的二元分類中的公平表現,旨在改善群體公平性指標,如最小化絕對平均賠率差異,同時不犧牲整體準確性。
三、五維評估體系:全方位衡量AI研究助手的科學能力
為了全面評估智能體的表現,研究團隊設計了一個包含五個互補指標的評估框架,這些指標能夠捕捉研究能力的不同方面。這就像是評估一位研究者時不僅要看他們的論文發表數量,還要考察研究質量、創新性、效率和可靠性等多個維度。
效用指標測量實證性能改進,作為主要目標。具體而言,它計算修改后代碼庫與原始代碼庫在任務特定指標上的性能差異。多樣性指標量化所提出假設的種類,通過語義和結構變化來衡量最終修改的多樣性,捕捉智能體的探索廣度。實證研究表明,多樣性與發現高性能解決方案密切相關。
學術貢獻率測量學術或算法貢獻相對于工程修改的比例,比如新的損失函數、架構或訓練方案相對于超參數調優等工程修改的比例。更高的學術貢獻率表明更大的科學貢獻,區分真正的研究進展和實現優化。步驟成功率捕捉所有代碼修改在初始代碼庫上的可靠性,反映智能體產生語法正確、語義連貫且能成功完成實驗迭代而不出錯的代碼的能力。
成本指標包括時間消耗和API使用量,用于評估執行修改的計算和時間成本。這些指標共同提供了對智能體研究能力的全方位評估,不僅關注最終結果,還考慮了研究過程的質量和效率。
四、探索策略對比:廣度與深度的較量
研究團隊選擇了三種具有不同研究策略的自動化機器學習研究智能體進行比較。TheAIScientist采用廣泛探索方法,在多個實驗方向上并行生成和測試大量假設。AIDE采用分層樹狀搜索策略,平衡新可能性的探索與有前景結果的利用。Claude Code采用線性改進策略,順序改進其假設和代碼實現來解決機器學習任務。
這三種策略的差異就像是三種不同的研究風格。TheAIScientist就像是一個同時進行多個項目的研究團隊,每個方向都淺嘗輒止但覆蓋面很廣。AIDE則像是一個善于規劃的研究者,會系統性地構建知識樹,既探索新方向又深入挖掘有希望的分支。Claude Code更像是一個專注于單一項目的研究者,會持續改進同一個想法直到達到滿意的結果。
在實驗設置中,每個智能體需要在三輪獨立實驗中執行,每輪分配固定的100步預算。研究團隊選擇三輪中基于測試集目標指標的最佳結果進行評估。實驗涵蓋了八個基礎機器學習任務,每個任務都基于已建立的倉庫和基線方法。
五、實驗結果:廣度探索策略展現優勢
實驗結果揭示了一個令人印象深刻的發現:采用Gemini-2.5-Pro的TheAIScientist取得了最佳性能,在八個任務中的四個任務中排名第一。采用GPT-5的TheAIScientist緊隨其后,在八個任務中的兩個任務中獲得頂級結果。這些發現表明,TheAIScientist在發現新穎有效的機器學習方法方面比AIDE和Claude Code表現更好。
考慮到不同智能體的研究探索策略,這些結果提供了重要啟示。TheAIScientist采用的廣泛但淺層的研究探索策略證明比AIDE的中等廣度和深度以及Claude Code的狹窄但深入的探索模式更有效。這種發現為現實世界的研究提供了實用指導:廣泛探索多樣化想法可能比專注于單一方向更有成效。
在多樣性分析方面,TheAIScientist顯示出最高的平均多樣性,AIDE的表現較低但仍然可比,而Claude Code的多樣性明顯更低。這種模式反映了智能體探索解決方案的方式。TheAIScientist并行推進多個想法,AIDE通過迭代改進的樹狀結構發展想法,而Claude Code傾向于沿著單一線性軌道進行。通過比較,并行探索擴大了搜索范圍并產生了更高的測量多樣性,而線性迭代限制了搜索并抑制了多樣性。
進一步分析代碼多樣性與任務性能之間的關系發現,總體而言,多樣性與性能呈正相關。在八個任務中,四個任務顯示強正相關,兩個弱正相關,兩個負相關。最顯著的效果出現在持續學習、公平性和偏見以及泛化任務中,數據效率中也觀察到中等相關性。這些發現表明,更高的代碼多樣性往往與改善的任務性能相關,盡管這種關系的強度因任務而異。
六、學術貢獻質量:區分創新與工程優化
學術貢獻率提供了對每個智能體特征的進一步洞察,幫助區分學術價值與工程努力和多樣性等其他因素的影響。TheAIScientist通常表現出比AIDE略高的學術貢獻率,而Claude Code始終顯示最低的比率。這表明TheAIScientist提出的想法和代碼修改更緊密地與方法論進步保持一致,而不是依賴工程技巧來提升性能。
比較GPT-5和Gemini-2.5-Pro顯示,Gemini-2.5-Pro傾向于提出比GPT-5更偏向工程的解決方案。對于自動化機器學習研究智能體來說,我們優先考慮能夠生成具有強學術價值的假設同時提供更好效用的智能體。
在計算成本方面,TheAIScientist消耗的tokens比AIDE更多,而Claude Code盡管性能較低,但在三個智能體中使用了最多的tokens。這表明專門的自動化機器學習研究智能體,如TheAIScientist和AIDE,在性能和token效率方面都比通用智能體Claude Code更適合機器學習研究問題。
七、Claude Code的特殊表現:高效但不穩定
Claude Code展現了一些獨特的特征。由于所有行動都基于大型語言模型決策而非固定程序,Claude Code經常無法遵循提示指令,頻繁過早終止實驗。盡管如此,它表現出高改進速度。此外,其學術貢獻率較低,對工程方面有強烈側重。這可能歸因于其通用智能體的性質,而非專門的自動化機器學習研究智能體。
研究還發現AIDE有時會誤解目標代碼庫的結構和邏輯。在某些情況下,它生成了從未集成到實際執行管道中的新類或組件,導致相對于基線沒有功能改進。AIDE在泛化和數據效率相關任務中未能改善基線,這可能源于AIDE只支持單個文件的迭代修改,而現實世界的機器學習研究代碼庫往往復雜且跨越多個文件,使AIDE不足以解決現實的研究任務。
研究團隊還遇到了AIDE和Claude Code的早期終止問題。對于AIDE,智能體有時由于其商業版本Weco的云基礎設施偶爾故障而過早終止。對于Claude Code,早期停止通常由模型的內部推理觸發,即使進一步行動是可能的,大型語言模型也會決定不繼續。
八、研究啟示:探索廣度比深度鉆研更重要
這項研究的核心發現為科學研究策略提供了重要啟示。一旦滿足探索廣度和深度的基本要求,更廣泛的探索被證明更有效。生成更廣泛的想法多樣性比反復完善單一想法更可靠地導致成功方法,研究觀察到想法多樣性與性能改進之間的正相關關系。
這個發現在某種程度上顛覆了傳統的研究觀念。在傳統的學術研究中,我們往往認為深入專精某個方向會帶來更好的成果,就像是深挖一口井總比淺挖多口井更容易找到水源。然而,這項研究表明,在AI輔助的科學研究中,廣泛撒網可能比專注于單一方向更有效果。
此外,研究發現Gemini-2.5-Pro在該協議下優于GPT-5。雖然Claude Code等CLI風格智能體提供了通用靈活性,但它們經常因為早期終止而未能完成多步驟任務,其中模型在進一步行動仍然可能的情況下停止。這表明,盡管靈活,CLI風格智能體不如專門為此設計的智能體適合自動化機器學習研究。
這些發現對于未來AI研究助手的設計具有重要指導意義。研究表明,設計有效的AI研究助手不僅要考慮它們的技術能力,還要關注它們的探索策略。廣泛探索能力可能是決定AI研究助手成功與否的關鍵因素之一,這為未來的智能體設計提供了明確的方向指導。
說到底,這項研究不僅僅是一個技術評估,更是對科學研究本質的深刻思考。它提醒我們,在追求AI輔助科學研究的道路上,多樣性和廣度探索可能比單純的深度鉆研更加重要。這種發現可能會改變我們設計和使用AI研究助手的方式,讓它們更好地服務于人類的科學探索事業。這項研究為自動化科學研究的未來發展奠定了堅實的基礎,為構建更加有效、可泛化和科學富有成效的研究智能體提供了實用的路徑指導。
Q&A
Q1:FML-bench評估平臺包含哪些具體的機器學習任務?
A:FML-bench包含八個基礎機器學習任務:泛化能力(跨域遷移)、數據效率(少樣本學習)、表示學習(自監督特征發現)、持續學習(防止災難性遺忘)、因果推理(治療效果估計)、魯棒性和可靠性(對抗攻擊防護)、隱私保護(防止成員推理攻擊)、公平性和偏見(群體公平性優化)。這些任務涵蓋了現代機器學習研究的核心挑戰領域。
Q2:為什么廣度探索策略比深度專精策略表現更好?
A:研究發現采用廣泛探索策略的TheAIScientist在八個任務中的六個任務上表現最佳,而專注深度鉆研的Claude Code表現最差。這是因為廣泛探索能夠同時嘗試多種不同的解決思路,增加了找到有效方法的概率,而且實驗數據顯示想法多樣性與性能改進呈正相關關系。相比之下,深度專精容易陷入局部最優解。
Q3:普通研究者能否使用FML-bench來評估自己開發的AI研究助手?
A:可以的。FML-bench設計時考慮了可擴展性,能夠輕松整合支持端到端訓練和評估的機器學習GitHub倉庫,只需要少量的輸出格式適配器。研究團隊已經將所有基準代碼、實驗提示和配置文件開源,普通研究者可以通過論文編號arXiv:2510.10472v1查詢完整信息并訪問相關資源來測試自己的AI系統。





京公網安備 11011402013531號