鬧玩呢！首屆大模型對抗賽，DeepSeek、Kimi第一輪被淘汰了

IP屬地中國·北京 編輯：朱天宇機(jī)器之心Pro 時間：2025-08-06 14:23:37

機(jī)器之心報道
機(jī)器之心編輯部
從目前戰(zhàn)況來看，Grok 4 是奪冠熱門。
在玩游戲方面，到底哪個模型最厲害？為了回答這個問題，谷歌近日發(fā)起了首屆大模型國際象棋對抗賽。
這場比賽為期三天，參賽選手包括：
o4-mini（OpenAI）DeepSeek-R1（DeepSeek）Kimi K2 Instruct（月之暗面）o3（OpenAI）Gemini 2.5 Pro（谷歌）Claude Opus 4（Anthropic）Grok 4（xAI）Gemini 2.5 Flash（谷歌）
剛剛，我們拿到了第一輪比賽的結(jié)果：Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰(zhàn)績分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2，晉級半決賽。
以下是模型對陣圖。

這個比賽是在一個名叫「Kaggle Game Arena」的平臺上進(jìn)行的。這是 Kaggle 公司的一個新項目，旨在跳出平時的基準(zhǔn)測試框架，探索像 Gemini、DeepSeek 等 LLM 在動態(tài)和競爭環(huán)境中表現(xiàn)如何。
在昨天的報道中，我們詳細(xì)描述了這場比賽的規(guī)則，比如不允許模型調(diào)用 Stockfish 等國際象棋引擎。（詳情請參見《谷歌約戰(zhàn)，DeepSeek、Kimi 都要上，首屆大模型對抗賽明天開戰(zhàn)》）
以下是對戰(zhàn)的詳細(xì)信息：
Kimi k2 對陣 o3：0-4
Kimi k2 與 o3 的對局較早結(jié)束，四局比賽都在八步棋內(nèi)完成。由于 Kimi k2 連續(xù)四次未能找到合法著法而被判負(fù)，o3 獲得了全勝。
不過需要說明的是，與 o3 對戰(zhàn)的 Kimi K2 Instruct 為非推理模型，打不過 o3 也在預(yù)料之中。
雖然 Kimi k2 未能獲勝，但這場比賽也為我們提供了有價值的觀察。從 Kimi k2 的走棋注釋來看，它在開局階段能夠遵循棋譜理論行棋。然而，一旦脫離了熟悉的開局理論，技術(shù)問題就開始顯現(xiàn) —— 而對 Kimi k2 來說，這個轉(zhuǎn)折點來得較早。
Kimi k2 遇到困難的具體原因還需要進(jìn)一步分析。在某些時候，它能清楚看到棋子的位置，卻似乎忘記了棋子的走法。
在這一次對局中，Kimi k2 完整識別了棋盤局勢，卻依然無法給出合法著法，似乎對棋子的走法規(guī)則出現(xiàn)了記憶混亂。
在其他對局中，它在局面識別上也存在一些技術(shù)問題。

憑借這場勝利，o3 順利晉級半決賽，與 o4 mini 對戰(zhàn)。
DeepSeek R1 對陣 o4-mini：0-4
OpenAI 的 o4-mini 與 DeepSeek R1 之間的對局呈現(xiàn)出了獨特的特點。如果單獨觀察每局比賽的前幾步棋，你可能會以為這是兩位高手在過招。然而對局進(jìn)行到某個階段后，棋局質(zhì)量就會突然斷崖式下跌。

這一現(xiàn)象在整場比賽中反復(fù)出現(xiàn)：幾步不錯的開局之后，會出現(xiàn)判斷偏差和一系列失誤。
盡管如此，o4-mini 在這場比賽中成功實現(xiàn)了兩次將軍 —— 這是一個值得注意的成就，考慮到對 AI 系統(tǒng)來說，準(zhǔn)確把握整個棋盤狀態(tài)本身就具有相當(dāng)?shù)奶魬?zhàn)性。
Gemini 2.5 Pro 對陣 Claude 4 Opus：4-0
Gemini 2.5 Pro 與 Claude 4 Opus 的對局是本次比賽中唯一一個通過「將殺」獲勝的場次多于因違規(guī)行棋告負(fù)的場次的比賽。不過，目前尚不清楚 Gemini 2.5 Pro 的真實棋力究竟如何，也不確定其勝利在多大程度上得益于 Claude 4 Opus 的失誤表現(xiàn)。
這場比賽第四局出現(xiàn)了一個耐人尋味的局面：Gemini 2.5 Pro 當(dāng)時擁有 32 分的子力優(yōu)勢，棋盤上甚至有兩個后。然而盡管火力全開，它在完成將殺的過程中仍然出現(xiàn)了送子的情況。

但更值得分析的是本場比賽的第一局。前九個回合，雙方 AI 都表現(xiàn)穩(wěn)健，著法精妙。然而就在此時，執(zhí)黑的 Claude 4 Opus 做出了一個草率的決定，走 10...g5。這步棋不僅白送一兵，還徹底破壞了己方王城的安全，直接加速了敗局的到來。從雙方 AI 的賽后評注中，我們可以看出一些端倪：

Grok 4 對陣 Gemini 2.5 Flash：4-0
今日表現(xiàn)最為亮眼的當(dāng)屬 Grok 4。除了以全勝戰(zhàn)績收獲 4 分外，其棋藝水平也堪稱目前最佳。雖然對手 Gemini 2.5 Flash 多次失誤送子確實降低了比賽難度，但與其他 AI 不同的是，Grok 4 展現(xiàn)出了精準(zhǔn)捕捉無保護(hù)棋子的能力，并能果斷實施打擊。

Grok 4 的出色表現(xiàn)甚至引起了科技界的關(guān)注，其創(chuàng)始人埃隆?馬斯克在 X 平臺簡短互動時，再次提及他那個著名觀點 ——「國際象棋太過簡單」。

截至目前，大語言模型在象棋對弈中暴露出三大關(guān)鍵短板：全局棋盤視覺化能力不足、棋子間互動關(guān)系理解有限，以及由此引發(fā)的合法著法執(zhí)行問題。而 Grok 4 的出色表現(xiàn)證明，它似乎成功突破了這些限制。
這些 AI 模型的優(yōu)勢與缺陷能否在后續(xù)賽事中保持穩(wěn)定？我們還要看明天的半決賽成績。
文章中提及的棋局在線上國際象棋對弈網(wǎng)站 chess.com 中均有詳細(xì)描述，感興趣的讀者可以參見以下鏈接：https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1
國際象棋大師 Levy Rozman 也在最新錄制的視頻中對這場比賽進(jìn)行了講解。
視頻鏈接:https://mp.weixin.qq.com/s/v3hCTuI6-0IdVSY0kcrHCw
我們曾在昨天的報道中發(fā)起了一個投票，目前已有近 4000 位讀者參與。從目前的數(shù)據(jù)看，大家此前最看好的是 Gemini 2.5 Pro—— 贏得了超過 37% 的票數(shù)。

現(xiàn)在，第一天的比賽結(jié)果已經(jīng)出爐，我們也稍微了解了各個模型的表現(xiàn)，不知道大家的想法有無變化呢？
參考鏈接：https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

80多年前，他們在重慶為全國戰(zhàn)時科研機(jī)構(gòu)養(yǎng)小白鼠

全國首個高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項目投運

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設(shè)計

民聲現(xiàn)場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

4.98萬就能買機(jī)器人通用基座？一機(jī)三態(tài)，多場景驗證，配VLA大腦

煥新補(bǔ)貼成效顯現(xiàn)，11月江蘇新能源汽車零售額同比增長26.2%

全站最新

80多年前，他們在重慶為全國戰(zhàn)時科研機(jī)構(gòu)養(yǎng)小白鼠

全國首個高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項目投運

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設(shè)計

民聲現(xiàn)場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

熱門推薦

“上參下”腳步逐漸加快，多地農(nóng)信改革邁出實質(zhì)性一步

“上參下”腳步逐漸加快，多地農(nóng)信改革邁出實質(zhì)性一步

李禮輝：必須加快制度創(chuàng)新，確定金融智能體的法律地位

珠海國資五年輸血45億未果，傅氏姐弟接盤“保殼”，*ST寶鷹5800萬押寶子公司能否續(xù)命？

百融云創(chuàng)發(fā)布RaaS戰(zhàn)略及“結(jié)果云”平臺定義AI硅基智能新范式

聯(lián)動科技：新產(chǎn)品QT-9800SoC測試系統(tǒng)已完成實驗室驗證用于測試系統(tǒng)級芯片（SoC）

80多年前，他們在重慶為全國戰(zhàn)時科研機(jī)構(gòu)養(yǎng)小白鼠

優(yōu)必選與天鵝到家簽署戰(zhàn)略合作協(xié)議

中科曙光與商湯科技、大曉機(jī)器人合作簽約

全國首個高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項目投運

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設(shè)計

民聲現(xiàn)場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

4.98萬就能買機(jī)器人通用基座？一機(jī)三態(tài)，多場景驗證，配VLA大腦

煥新補(bǔ)貼成效顯現(xiàn)，11月江蘇新能源汽車零售額同比增長26.2%

高通雙架構(gòu)戰(zhàn)略曝光：Oryon管當(dāng)下，RISC-V賭未來