![]()
機(jī)器之心報道
機(jī)器之心編輯部
從目前戰(zhàn)況來看,Grok 4 是奪冠熱門。
在玩游戲方面,到底哪個模型最厲害?為了回答這個問題,谷歌近日發(fā)起了首屆大模型國際象棋對抗賽。
這場比賽為期三天,參賽選手包括:
o4-mini(OpenAI)DeepSeek-R1(DeepSeek)Kimi K2 Instruct(月之暗面)o3(OpenAI)Gemini 2.5 Pro(谷歌)Claude Opus 4(Anthropic)Grok 4(xAI)Gemini 2.5 Flash(谷歌)
剛剛,我們拿到了第一輪比賽的結(jié)果:Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰(zhàn)績分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晉級半決賽。
以下是模型對陣圖。
![]()
這個比賽是在一個名叫「Kaggle Game Arena」的平臺上進(jìn)行的。這是 Kaggle 公司的一個新項目,旨在跳出平時的基準(zhǔn)測試框架,探索像 Gemini、DeepSeek 等 LLM 在動態(tài)和競爭環(huán)境中表現(xiàn)如何。
在昨天的報道中,我們詳細(xì)描述了這場比賽的規(guī)則,比如不允許模型調(diào)用 Stockfish 等國際象棋引擎。(詳情請參見《谷歌約戰(zhàn),DeepSeek、Kimi 都要上,首屆大模型對抗賽明天開戰(zhàn)》)
以下是對戰(zhàn)的詳細(xì)信息:
Kimi k2 對陣 o3:0-4
Kimi k2 與 o3 的對局較早結(jié)束,四局比賽都在八步棋內(nèi)完成。由于 Kimi k2 連續(xù)四次未能找到合法著法而被判負(fù),o3 獲得了全勝。
不過需要說明的是,與 o3 對戰(zhàn)的 Kimi K2 Instruct 為非推理模型,打不過 o3 也在預(yù)料之中。
雖然 Kimi k2 未能獲勝,但這場比賽也為我們提供了有價值的觀察。從 Kimi k2 的走棋注釋來看,它在開局階段能夠遵循棋譜理論行棋。然而,一旦脫離了熟悉的開局理論,技術(shù)問題就開始顯現(xiàn) —— 而對 Kimi k2 來說,這個轉(zhuǎn)折點來得較早。
Kimi k2 遇到困難的具體原因還需要進(jìn)一步分析。在某些時候,它能清楚看到棋子的位置,卻似乎忘記了棋子的走法。
在這一次對局中,Kimi k2 完整識別了棋盤局勢,卻依然無法給出合法著法,似乎對棋子的走法規(guī)則出現(xiàn)了記憶混亂。
在其他對局中,它在局面識別上也存在一些技術(shù)問題。
![]()
憑借這場勝利,o3 順利晉級半決賽,與 o4 mini 對戰(zhàn)。
DeepSeek R1 對陣 o4-mini:0-4
OpenAI 的 o4-mini 與 DeepSeek R1 之間的對局呈現(xiàn)出了獨特的特點。如果單獨觀察每局比賽的前幾步棋,你可能會以為這是兩位高手在過招。然而對局進(jìn)行到某個階段后,棋局質(zhì)量就會突然斷崖式下跌。
![]()
這一現(xiàn)象在整場比賽中反復(fù)出現(xiàn):幾步不錯的開局之后,會出現(xiàn)判斷偏差和一系列失誤。
盡管如此,o4-mini 在這場比賽中成功實現(xiàn)了兩次將軍 —— 這是一個值得注意的成就,考慮到對 AI 系統(tǒng)來說,準(zhǔn)確把握整個棋盤狀態(tài)本身就具有相當(dāng)?shù)奶魬?zhàn)性。
Gemini 2.5 Pro 對陣 Claude 4 Opus:4-0
Gemini 2.5 Pro 與 Claude 4 Opus 的對局是本次比賽中唯一一個通過「將殺」獲勝的場次多于因違規(guī)行棋告負(fù)的場次的比賽。不過,目前尚不清楚 Gemini 2.5 Pro 的真實棋力究竟如何,也不確定其勝利在多大程度上得益于 Claude 4 Opus 的失誤表現(xiàn)。
這場比賽第四局出現(xiàn)了一個耐人尋味的局面:Gemini 2.5 Pro 當(dāng)時擁有 32 分的子力優(yōu)勢,棋盤上甚至有兩個后。然而盡管火力全開,它在完成將殺的過程中仍然出現(xiàn)了送子的情況。
![]()
但更值得分析的是本場比賽的第一局。前九個回合,雙方 AI 都表現(xiàn)穩(wěn)健,著法精妙。然而就在此時,執(zhí)黑的 Claude 4 Opus 做出了一個草率的決定,走 10...g5。這步棋不僅白送一兵,還徹底破壞了己方王城的安全,直接加速了敗局的到來。從雙方 AI 的賽后評注中,我們可以看出一些端倪:
![]()
Grok 4 對陣 Gemini 2.5 Flash:4-0
今日表現(xiàn)最為亮眼的當(dāng)屬 Grok 4。除了以全勝戰(zhàn)績收獲 4 分外,其棋藝水平也堪稱目前最佳。雖然對手 Gemini 2.5 Flash 多次失誤送子確實降低了比賽難度,但與其他 AI 不同的是,Grok 4 展現(xiàn)出了精準(zhǔn)捕捉無保護(hù)棋子的能力,并能果斷實施打擊。
![]()
Grok 4 的出色表現(xiàn)甚至引起了科技界的關(guān)注,其創(chuàng)始人埃隆?馬斯克在 X 平臺簡短互動時,再次提及他那個著名觀點 ——「國際象棋太過簡單」。
![]()
截至目前,大語言模型在象棋對弈中暴露出三大關(guān)鍵短板:全局棋盤視覺化能力不足、棋子間互動關(guān)系理解有限,以及由此引發(fā)的合法著法執(zhí)行問題。而 Grok 4 的出色表現(xiàn)證明,它似乎成功突破了這些限制。
這些 AI 模型的優(yōu)勢與缺陷能否在后續(xù)賽事中保持穩(wěn)定?我們還要看明天的半決賽成績。
文章中提及的棋局在線上國際象棋對弈網(wǎng)站 chess.com 中均有詳細(xì)描述,感興趣的讀者可以參見以下鏈接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1
國際象棋大師 Levy Rozman 也在最新錄制的視頻中對這場比賽進(jìn)行了講解。
視頻鏈接:https://mp.weixin.qq.com/s/v3hCTuI6-0IdVSY0kcrHCw
我們曾在昨天的報道中發(fā)起了一個投票,目前已有近 4000 位讀者參與。從目前的數(shù)據(jù)看,大家此前最看好的是 Gemini 2.5 Pro—— 贏得了超過 37% 的票數(shù)。
![]()
現(xiàn)在,第一天的比賽結(jié)果已經(jīng)出爐,我們也稍微了解了各個模型的表現(xiàn),不知道大家的想法有無變化呢?
參考鏈接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1





京公網(wǎng)安備 11011402013531號