![]()
新智元報道
編輯:定慧
OpenAI的內部推理模型,又拿下了IOI 2025金牌,擊敗325名人類選手,總排名第6,AI組第1。該模型沿用IMO金牌版本,無專門訓練,限時5小時、50次提交且無聯網支持。
剛剛,OpenAI內部推理模型在獲得IMO金牌后,又拿下了IOI金牌。
![]()
和上次IMO一樣,OpenAI 使用了草莓形象來代表這個推理模型。
只不過這次的「草莓」不僅帶上了IOI的金牌,而且更加的擬人,這個形象很有可能進化為OpenAI內部推理系統代表形象。
![]()
OpenAI宣言的這個「內部推理系統」就是上次拿下IMO金牌,惹出爭議的同款模型。
IMO之后,OpenAI對IMO金牌模型進行了全面評估,發現除了數學競賽之外,它在許多其他領域(包括編程)也是目前最好的模型。
因此,OpenAI決定直接使用完全相同的IMO金牌模型,不做任何更改,并將其應用于IOI的系統中。
![]()
OpenAI官方也發帖證實了這個消息。
這個內部推理模型的得分足夠高,在今年的IOI線上競賽中,和人類一起排名位列第6,與其他AI排名則是第1。
![]()
Sheryl Hsu表示,這次內部模型參加了IOI的在線AI競賽項目,一共330位參賽選手。
前5位都是人類。
![]()
此次比賽,AI和人類參賽者一樣,相同的5小時時間限制,以及最多50次的提交限制次數。
并且,和人類一樣,這個推理系統沒有「聯網」,也沒有「RAG」搜索,只能訪問基本的終端工具。
這個推理模型并沒有針對IOI進行特別訓練。
也就是說,除了讓模型連接到IOI API外,剩下的一切都靠AI自己推理。
其實去年,OpenAI就參加過IOI比賽,當時以略微低于銅牌分數線的成績收尾。
僅僅過去一年時間,推理模型的排名就從第49百分位躍升到第98百分位。
![]()
OpenAI內部推理模型-IOI金牌團隊
不過,就在該消息發布沒有多久。
馬斯克的Grok也來攪局了!
首先要明確的是,這個「內部推理模型」并不是To C的模型,除了OpenAI內部,沒有人能夠訪問。
那像目前最頂級的商業模型,在IOI上表現如何?
答案是:慘不忍睹。
根據Vals AI的測試結果,目前能在IOI取得領先的商業模型,居然是Grok 4。
![]()
首先,目前所有的頂尖模型都存在明顯不足,沒有一個模型能在任意一年的比賽中獲得獎牌。
Grok 4以26.2%的準確率領先,隨后是GPT-5、Gemini 2.5 Pro和Claude Opus 4.1。
Vals AI通過其公開端點進行測試,所有商業模型在IOI上仍有很大的改進空間。
![]()
此外Vals AI這次測試中發現,「貴就是好」的道理也適用于大模型領域。
只有每道問題超過2美元的昂貴模型,才能取得有意義的表現。
![]()
也就是說,OpenAI實驗室里的那個推理模型,要遠遠強過目前公眾能夠接觸到的商業模型。
![]()
這可能給人們帶來很多遐想,目前最頂尖實驗室中的最先進的AI技術距離公眾還有多遠?
這引發了很多猜測和討論。
從IMO金牌鬧劇中可以看到,巨頭們對于這種「領先地位」的追求非常強。
谷歌Gemini為了給自己正名為「首個獲得IMO金牌的AI模型」,甚至有組委會出面宣布「OpenAI的宣布」是無效的。
![]()
甚至還有OpenAI被曝IMO金牌造假,陶哲軒揭露內幕的橋段。
目前GPT-5剛剛發布,OpenAI就馬上宣布IOI金牌,可以預測,這應該就是給后來的Gork 5和Gemini 3等模型準備的挑戰。
為何OpenAI、谷歌、Anthropic、Grok等巨頭們癡迷于刷榜和競賽通關?
巨頭們對刷榜和競賽排名的癡迷,根本上源自AI行業的高度競爭性和技術的快速迭代。
首先,刷榜是最直接有效的營銷手段之一。
排名榜單上的領先位置不僅意味著技術優勢,更代表了市場影響力和品牌認可度。一旦模型在權威比賽如IMO、IOI中斬獲佳績,企業便能迅速樹立強大的品牌形象,吸引公眾關注并提升用戶信任。
其次,AI領域的競賽排名通常與模型的通用性能和應用潛力高度相關。無論是IMO還是IOI,這些比賽考驗的是模型的基礎推理、邏輯推演和泛化能力。
換句話說,競賽勝出代表著模型不僅在特定任務上表現優異,更意味著其在更廣泛的應用場景中可能具有領先的技術優勢。
最后,競賽勝出能夠大大提高對人才和資本的吸引力。
![]()
OpenAI團隊前往玻利維亞親自參加IOI
正因如此,OpenAI、谷歌DeepMind、meta和Anthropic等AI巨頭始終熱衷于在競賽上相互較量,每一次榜單的變動都可能影響AI行業未來的格局。
那么,誰是地表最強AI?
也許這個競爭會一直持續到我們實現AGI的那天吧。
參考資料:
https://x.com/SherylHsu02/status/1954966118680105150
![]()





京公網安備 11011402013531號