剛剛，OpenAI內部推理模型斬獲IOI 2025金牌！所有AI選手中第一

IP屬地中國·北京 編輯：馮璃月新智元 時間：2025-08-12 10:28:49

新智元報道
編輯：定慧
OpenAI的內部推理模型，又拿下了IOI 2025金牌，擊敗325名人類選手，總排名第6，AI組第1。該模型沿用IMO金牌版本，無專門訓練，限時5小時、50次提交且無聯網支持。
剛剛，OpenAI內部推理模型在獲得IMO金牌后，又拿下了IOI金牌。

和上次IMO一樣，OpenAI 使用了草莓形象來代表這個推理模型。
只不過這次的「草莓」不僅帶上了IOI的金牌，而且更加的擬人，這個形象很有可能進化為OpenAI內部推理系統代表形象。

OpenAI宣言的這個「內部推理系統」就是上次拿下IMO金牌，惹出爭議的同款模型。
IMO之后，OpenAI對IMO金牌模型進行了全面評估，發現除了數學競賽之外，它在許多其他領域（包括編程）也是目前最好的模型。
因此，OpenAI決定直接使用完全相同的IMO金牌模型，不做任何更改，并將其應用于IOI的系統中。

OpenAI官方也發帖證實了這個消息。
這個內部推理模型的得分足夠高，在今年的IOI線上競賽中，和人類一起排名位列第6，與其他AI排名則是第1。

Sheryl Hsu表示，這次內部模型參加了IOI的在線AI競賽項目，一共330位參賽選手。
前5位都是人類。

此次比賽，AI和人類參賽者一樣，相同的5小時時間限制，以及最多50次的提交限制次數。
并且，和人類一樣，這個推理系統沒有「聯網」，也沒有「RAG」搜索，只能訪問基本的終端工具。
這個推理模型并沒有針對IOI進行特別訓練。
也就是說，除了讓模型連接到IOI API外，剩下的一切都靠AI自己推理。
其實去年，OpenAI就參加過IOI比賽，當時以略微低于銅牌分數線的成績收尾。
僅僅過去一年時間，推理模型的排名就從第49百分位躍升到第98百分位。

OpenAI內部推理模型-IOI金牌團隊
不過，就在該消息發布沒有多久。
馬斯克的Grok也來攪局了！
首先要明確的是，這個「內部推理模型」并不是To C的模型，除了OpenAI內部，沒有人能夠訪問。
那像目前最頂級的商業模型，在IOI上表現如何？
答案是：慘不忍睹。
根據Vals AI的測試結果，目前能在IOI取得領先的商業模型，居然是Grok 4。

首先，目前所有的頂尖模型都存在明顯不足，沒有一個模型能在任意一年的比賽中獲得獎牌。
Grok 4以26.2%的準確率領先，隨后是GPT-5、Gemini 2.5 Pro和Claude Opus 4.1。
Vals AI通過其公開端點進行測試，所有商業模型在IOI上仍有很大的改進空間。

此外Vals AI這次測試中發現，「貴就是好」的道理也適用于大模型領域。
只有每道問題超過2美元的昂貴模型，才能取得有意義的表現。

也就是說，OpenAI實驗室里的那個推理模型，要遠遠強過目前公眾能夠接觸到的商業模型。

這可能給人們帶來很多遐想，目前最頂尖實驗室中的最先進的AI技術距離公眾還有多遠？
這引發了很多猜測和討論。
從IMO金牌鬧劇中可以看到，巨頭們對于這種「領先地位」的追求非常強。
谷歌Gemini為了給自己正名為「首個獲得IMO金牌的AI模型」，甚至有組委會出面宣布「OpenAI的宣布」是無效的。

甚至還有OpenAI被曝IMO金牌造假，陶哲軒揭露內幕的橋段。
目前GPT-5剛剛發布，OpenAI就馬上宣布IOI金牌，可以預測，這應該就是給后來的Gork 5和Gemini 3等模型準備的挑戰。
為何OpenAI、谷歌、Anthropic、Grok等巨頭們癡迷于刷榜和競賽通關？
巨頭們對刷榜和競賽排名的癡迷，根本上源自AI行業的高度競爭性和技術的快速迭代。
首先，刷榜是最直接有效的營銷手段之一。
排名榜單上的領先位置不僅意味著技術優勢，更代表了市場影響力和品牌認可度。一旦模型在權威比賽如IMO、IOI中斬獲佳績，企業便能迅速樹立強大的品牌形象，吸引公眾關注并提升用戶信任。
其次，AI領域的競賽排名通常與模型的通用性能和應用潛力高度相關。無論是IMO還是IOI，這些比賽考驗的是模型的基礎推理、邏輯推演和泛化能力。
換句話說，競賽勝出代表著模型不僅在特定任務上表現優異，更意味著其在更廣泛的應用場景中可能具有領先的技術優勢。
最后，競賽勝出能夠大大提高對人才和資本的吸引力。

OpenAI團隊前往玻利維亞親自參加IOI
正因如此，OpenAI、谷歌DeepMind、meta和Anthropic等AI巨頭始終熱衷于在競賽上相互較量，每一次榜單的變動都可能影響AI行業未來的格局。
那么，誰是地表最強AI？
也許這個競爭會一直持續到我們實現AGI的那天吧。
參考資料：
https://x.com/SherylHsu02/status/1954966118680105150

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

觀察|全固態電池商業化時間表成爭議焦點，高成本或阻礙推廣

IDC：印度手機市場Q3創五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會現場，他們用DeepSeek養出迷你“獨角獸”

千問APP發布日遭美方“指控”，背后是中美AI的無聲戰爭

明年沖擊100萬臺！零跑汽車2025年銷量目標已達成

iPhone Air開啟eSIM時代：國內廠商紛紛跟進

全站最新

觀察|全固態電池商業化時間表成爭議焦點，高成本或阻礙推廣

IDC：印度手機市場Q3創五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會現場，他們用DeepSeek養出迷你“獨角獸”

千問APP發布日遭美方“指控”，背后是中美AI的無聲戰爭

熱門推薦

創新是走出低谷、完成突破的動力（親歷者說）

線下線上齊發力，渝貨出山有實招

觀察|全固態電池商業化時間表成爭議焦點，高成本或阻礙推廣

IDC：印度手機市場Q3創五年新高，vivo、OPPO、三星位列前三

2025世界城市文化大會聚焦AI時代城市文化

在全球最大的科技峰會現場，他們用DeepSeek養出迷你“獨角獸”

潤和軟件與中國科學院廣州生物醫藥與健康研究院達成戰略合作

千問APP發布日遭美方“指控”，背后是中美AI的無聲戰爭

明年沖擊100萬臺！零跑汽車2025年銷量目標已達成

iPhone Air開啟eSIM時代：國內廠商紛紛跟進

劍指蘋果A20 高通驍龍8 Elite Gen6明年見：雙版本齊發

全球首發出圈實況拼圖！OPPO Reno15系列下周登場

全能搭子文心5.0，百度用原生全模態宣告回歸

中芯國際CEO：存儲漲價對邏輯代工有兩大致命影響

ADM、浪潮云和神州數碼成為開源歐拉社區新捐贈單位