LLM 數學基準測試集 FrontierMath 公布：號稱業界模型均敗北

IP屬地中國·北京 編輯：劉敏 IT之家 時間：2024-11-15 20:02:20

11 月 15 日消息，研究機構 Epoch AI 現公布了一款名為 FrontierMath 的全新 AI 模型數學基準測試集，旨在評估系列模型的數學推理能力。
與現有諸如 GSM-8K、MATH 等測試題集不同，FrontierMath 中的數學問題號稱特別復雜，收錄了現代數學中的數論、代數和幾何等領域，這些題目的難度據稱極高，甚至人類專家解答往往需要數小時甚至數天的時間。
獲悉，FrontierMath 的題目由人工智能學方面資深專家設計，相應問題號稱不僅要求 AI 理解數學概念，還需要具備復雜情境的推理能力，以避免模型利用以前學習過的類似題目進行比對作答。
▲ 題庫中的題型舉例
研究機構表示，他們利用 FrontierMath 對當前市場上的 AI 模型進行初步測試，發現這些模型普遍表現不佳，包括此前在 GSM-8K、MATH 上取得近乎滿分成績的 Claude 3.5 和 GPT-4 等模型在 FrontierMath 中的解題成功率也均敗北（成功率低于 2%）。
研究團隊指出，AI 在解決高級數學問題時的主要困難在于這些模型通常依賴于訓練數據中學過的類似題目來生成答案，而不是對問題本身的邏輯結構進行真正的理解和推理。這意味著目前業界大部分 AI 模型只要遇到沒學過的題目，就容易出錯，而這一原則性的問題難以實際上無法通過“暴力增加模型規模”解決，需要研發人員從模型推理架構層面進行深入改造。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

人工智能公司MiniMax通過港交所聆訊

開悟世界模型3.0發布，讓機器人“理解”物理世界規律并“預測”未來

不懂AI，晉升空間有限？中國人才勢能大會，兩類人才被密切關注

從網線到人生攻擊？項立剛批羅永浩 “干啥啥不成”，網友吵翻了

Intel顯卡沖擊高端：竟然要直接上32GB顯存！

一個人就是一支隊伍！上海首個人工智能廣告“一人公司”誕生！

全站最新

人工智能公司MiniMax通過港交所聆訊

開悟世界模型3.0發布，讓機器人“理解”物理世界規律并“預測”未來

不懂AI，晉升空間有限？中國人才勢能大會，兩類人才被密切關注

從網線到人生攻擊？項立剛批羅永浩 “干啥啥不成”，網友吵翻了

熱門推薦

人工智能公司MiniMax通過港交所聆訊

開悟世界模型3.0發布，讓機器人“理解”物理世界規律并“預測”未來

【西街觀察】硬科技上市驗“真金”

不懂AI，晉升空間有限？中國人才勢能大會，兩類人才被密切關注

從網線到人生攻擊？項立剛批羅永浩 “干啥啥不成”，網友吵翻了

Intel顯卡沖擊高端：竟然要直接上32GB顯存！

一個人就是一支隊伍！上海首個人工智能廣告“一人公司”誕生！

電子產品信息清除強制國標發布二手流通加上“安全鎖”

杭州外骨骼，斬獲大獎！

月入過萬、15天躺賺264萬……專坑你爸媽！

從中試孵化邁向產業化，固態動力電池技術成果在鹽城發布

又一家國產GPU企業，沖刺港股IPO！

手機套餐套路深：升易降難、區別對待，消費者如何應對？

MiniMax通過上市聆訊：持有現金超10億美元阿里米哈游騰訊加持

上海速度！成立不足四年，平均年齡29歲的AI公司，閃電沖擊港股上市