AI 科學研究新基準:FrontierScience 評估模型推理能力

IP屬地中國·北京 編輯：柳晴雪 Chinaz 時間：2025-12-17 16:23:34

在科學研究中，推理能力至關重要。科學家們不僅僅是回憶事實，還需提出假設、測試并修正這些假設，并在不同領域之間綜合思想。隨著 AI 模型能力的提升，如何評估它們在科學研究中深度推理的能力成為了一個重要問題。
最近，AI 模型在一些重大領域取得了里程碑式的成就，包括在國際數學奧林匹克和信息學奧林匹克比賽中表現優異。同時，GPT-5等先進模型正在有效加速真實的科學工作流程。研究人員利用這些系統進行跨學科的文獻搜索以及復雜數學證明的工作，顯著縮短了從幾天或幾周到幾小時的研究時間。
為進一步評估 AI 在科學研究中的能力，我們推出了一個新基準 ——FrontierScience。這一基準專注于評估在物理、化學和生物等領域的專家級科學推理能力。FrontierScience 包含了數百個經過專家驗證的難題，并設有兩個問題追蹤:奧林匹克版和研究版，旨在分別測量奧林匹克風格的科學推理能力和真實世界的科學研究能力。初步評估結果顯示，GPT-5.2在 FrontierScience-Olympiad 和 Research 兩個模塊中的表現優于其他模型。
具體而言，GPT-5.2在奧林匹克模塊中得分77%，在研究模塊中得分25%。盡管目前的模型已經能夠支持結構化推理的研究環節，但在開放式思維能力方面仍有待提升。當前，科學家們利用這些模型加速研究流程，但在問題框架和驗證方面仍需依賴人類的判斷。未來，我們將繼續完善 FrontierScience 基準，并擴大其應用領域，以幫助模型成為科學發現中的可靠伙伴。
劃重點:

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

第42次南極考察人員登陸后有何重點工作？

國產大模型叩響資本市場大門

iPhone最高立減2000多元，數百人排隊搶購榴蓮！海南今起封關，網友已經在看機票了……

1秒定位船舶，語音識別率近九成！吳淞海事局自研系統將推動安全監管向智能化邁進

上海算力綜合指數連續多年居全國前列，在用數據中心達136個

歐盟“撤回”2035全面電動化

全站最新

第42次南極考察人員登陸后有何重點工作？

國產大模型叩響資本市場大門

iPhone最高立減2000多元，數百人排隊搶購榴蓮！海南今起封關，網友已經在看機票了……

1秒定位船舶，語音識別率近九成！吳淞海事局自研系統將推動安全監管向智能化邁進

熱門推薦

第42次南極考察人員登陸后有何重點工作？

國產大模型叩響資本市場大門

開放第三方支付蘋果在日調整規則

80后億萬富翁出任NASA局長主張與中國太空競爭

iPhone最高立減2000多元，數百人排隊搶購榴蓮！海南今起封關，網友已經在看機票了……

社評：中國科技進步，路透社本不必焦慮

1秒定位船舶，語音識別率近九成！吳淞海事局自研系統將推動安全監管向智能化邁進

上海算力綜合指數連續多年居全國前列，在用數據中心達136個

歐盟“撤回”2035全面電動化

iPhone內存用完就壞了？蘋果客服回應

盛路通信：公司研發的微波模塊組件可應用于衛星通信系統

首創ACE具身研發范式大曉機器人構建具身智能開放新生態

【西街觀察】自動駕駛：該批判的批判，該批準的批準

國產真機首次亮相！中科曙光發布scaleX萬卡超集群

蘋果在日本開放第三方應用商店后，Epic斯威尼痛批“還收垃圾費”