在科學研究中,推理能力至關重要。科學家們不僅僅是回憶事實,還需提出假設、測試并修正這些假設,并在不同領域之間綜合思想。隨著 AI 模型能力的提升,如何評估它們在科學研究中深度推理的能力成為了一個重要問題。
最近,AI 模型在一些重大領域取得了里程碑式的成就,包括在國際數學奧林匹克和信息學奧林匹克比賽中表現優異。同時,GPT-5等先進模型正在有效加速真實的科學工作流程。研究人員利用這些系統進行跨學科的文獻搜索以及復雜數學證明的工作,顯著縮短了從幾天或幾周到幾小時的研究時間。
為進一步評估 AI 在科學研究中的能力,我們推出了一個新基準 ——FrontierScience。這一基準專注于評估在物理、化學和生物等領域的專家級科學推理能力。FrontierScience 包含了數百個經過專家驗證的難題,并設有兩個問題追蹤:奧林匹克版和研究版,旨在分別測量奧林匹克風格的科學推理能力和真實世界的科學研究能力。初步評估結果顯示,GPT-5.2在 FrontierScience-Olympiad 和 Research 兩個模塊中的表現優于其他模型。
具體而言,GPT-5.2在奧林匹克模塊中得分77%,在研究模塊中得分25%。盡管目前的模型已經能夠支持結構化推理的研究環節,但在開放式思維能力方面仍有待提升。當前,科學家們利用這些模型加速研究流程,但在問題框架和驗證方面仍需依賴人類的判斷。未來,我們將繼續完善 FrontierScience 基準,并擴大其應用領域,以幫助模型成為科學發現中的可靠伙伴。
劃重點:





京公網安備 11011402013531號