Grok 4進(jìn)決賽，大模型對(duì)抗賽Gemini全軍覆沒(méi)，馬斯克「裝」起來(lái)了

IP屬地中國(guó)·北京 編輯：沈如風(fēng) 機(jī)器之心Pro 時(shí)間：2025-08-07 12:28:53

機(jī)器之心報(bào)道
機(jī)器之心編輯部
明天，Grok 對(duì)陣 OpenAI 的 o3。
誰(shuí)也沒(méi)想到，谷歌攢的 Kaggle AI Chess 比賽（即大模型國(guó)際象棋對(duì)抗賽），在半決賽中，Grok 4 擊敗 Gemini 2.5 Pro，進(jìn)入總決賽！

在昨天的比賽中，Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰(zhàn)績(jī)分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2，晉級(jí)半決賽。
今天的戰(zhàn)況依舊讓人猜不著走向，Gemini 2.5 Pro 敗了。
馬斯克昨天點(diǎn)評(píng)比賽結(jié)果的話術(shù)，今天依舊有用：「國(guó)際象棋太過(guò)簡(jiǎn)單，對(duì) Grok 來(lái)說(shuō)，只是副作用，我們沒(méi)花多少力氣放在象棋優(yōu)化上。」
今天 Grok 4 闖入總決賽，不知馬斯克是不是更看不上這場(chǎng)比賽了。

我們?cè)倩氐竭@場(chǎng)半決賽。
戰(zhàn)況是Grok 4 和 o3 分別戰(zhàn)勝了 Gemini 2.5 Pro 和 o4-mini，成功晉級(jí)決賽。雖然 o3 的勝利在大家意料之中，但 Grok 與 Gemini 之間的激烈對(duì)決卻讓所有人大跌眼鏡 —— 雙方在常規(guī)賽打成 2:2 平，最終通過(guò)加賽才分出勝負(fù)。
明天是比賽的最后一天。屆時(shí)，將迎來(lái)本次 AI 象棋巔峰對(duì)決的冠軍之戰(zhàn)，X 對(duì)戰(zhàn) OpenAI。

對(duì)戰(zhàn)表
o4-mini 對(duì)陣 o3 ：0-4
在初賽中，o4-mini 和 o3 均以 4-0 的全勝戰(zhàn)績(jī)淘汰了 DeepSeek-R1 以及 Kimi k2，同樣出身 OpenAI 的兩大模型在半決賽中正面對(duì)決。
比賽的結(jié)果基本在預(yù)料之中，o3 以 4 比 0 橫掃對(duì)手 o4-mini，順利晉級(jí)決賽。
在 OpenAI 的推理模型體系中，o3 作為一款強(qiáng)大的通用推理模型，在多個(gè)基準(zhǔn)測(cè)試中均取得了優(yōu)異成績(jī)，展現(xiàn)出卓越的穩(wěn)定性與復(fù)雜推理能力。相比之下，o4-mini 是一款輕量級(jí)模型，旨在在速度、成本與性能之間實(shí)現(xiàn)更好的平衡。
因此 o4-mini 輸給 o3 的確符合預(yù)期，是因?yàn)橄笃暹@種任務(wù)對(duì)模型的穩(wěn)定推理能力和容錯(cuò)性要求很高，這恰恰是輕量化模型最容易妥協(xié)的地方。
谷歌舉辦這場(chǎng)比賽的主要目的是為了分析 AI 模型是如何思考的。因此，整場(chǎng)對(duì)局中的第二盤可能對(duì)谷歌來(lái)說(shuō)意義不大，但對(duì)普通棋手而言卻相當(dāng)值得關(guān)注。
在這一盤中，o3 僅用 12 步就完成了致勝攻擊，手法頗有 Puzzle Rush 風(fēng)格。雖然不是一個(gè)真正意義上的悶殺（smothered mate），但已經(jīng)非常接近了，依然令人驚嘆。

o3 的致勝攻擊
盡管 AI 在國(guó)際象棋上的表現(xiàn)一直不盡如人意，但 o3 在這盤棋中卻拿下了完美的 100 分準(zhǔn)確率評(píng)分。

整場(chǎng)比賽的剩余部分，大體上延續(xù)了本次錦標(biāo)賽至今的老套路：某個(gè)弱 AI（這次是 o4-mini）在某個(gè)時(shí)間點(diǎn)開始失去局勢(shì)控制，連續(xù)出現(xiàn)致命失誤，最終輸?shù)魧?duì)局。
不過(guò)有一盤棋例外 —— 它可能是本屆比賽中看起來(lái)最自然流暢的一局。這是本場(chǎng)對(duì)決的第三盤，相較其他對(duì)局，這一盤展現(xiàn)出了真正的高質(zhì)量國(guó)際象棋。
其中，o3 下出的兩個(gè)中間招法（in-between moves）—— 第 12 回合的 12…Bb4+ 和第 19 回合的 19…e3+ —— 尤其令人印象深刻。

o3 令人印象深刻的走棋
Gemini 2.5 Pro 對(duì)陣 Grok 4：2.5-2.5
Grok 在國(guó)際象棋領(lǐng)域的統(tǒng)治力依然強(qiáng)勢(shì)，但這次的勝利之路并不平坦，甚至可以說(shuō)是比賽到目前為止最焦灼的一輪。
準(zhǔn)確的說(shuō)，馬斯克輕描淡寫「國(guó)際象棋是副作用」的 Grok 差一點(diǎn)就翻了車，最終以和棋收?qǐng)雒銖?qiáng)取勝。
雖然最終比賽結(jié)果是 Gemini 2.5 Pro 以 2-3 不敵 Grok 4，但在官方博客中，比分仍被標(biāo)注為 2.5 - 2.5 平局。
比賽一直打到特殊的末日加賽（armageddon tiebreak，是指國(guó)際象棋比賽中，在常規(guī)賽或加賽打平后，用于決出勝負(fù)的特殊加賽方式）才決出勝負(fù)，最終，Grok 執(zhí)黑在一盤 55 步的和棋中晉級(jí) —— 盡管當(dāng)時(shí) Grok 明顯處于勝勢(shì)。
但我們從頭說(shuō)起。今天 Grok 的表現(xiàn)異常混亂，頻頻送子得分。事實(shí)上，本場(chǎng)首盤由 Gemini 先拔頭籌，Grok 相繼丟掉了一匹馬、一輛車，最后被將死，痛失一局。
第二盤棋中，Gemini 和 Grok 在第 11 步之前都嚴(yán)格遵循了開局定式。正如我們?cè)谥暗谋荣愔杏^察到的那樣，AI 一旦脫離開局理論、進(jìn)入自主思考階段，就很容易開始出錯(cuò)。
而 Grok 和 Gemini 至今為止都表現(xiàn)出了比其他模型更長(zhǎng)時(shí)間遵循理論的能力，這也可能是本場(chǎng)對(duì)決如此膠著的原因之一。
不過(guò)，也如預(yù)期那樣，一旦 Grok 脫離定式，失誤就接踵而至。Grok 再次丟掉一匹馬，而 Gemini 卻出現(xiàn)幻覺，主動(dòng)送后，隨后又全盤崩塌，最終將第二盤拱手相讓。

Grok 脫離定式后失誤

Gemini 產(chǎn)生幻覺
接下來(lái)的兩盤棋又是決定性的比賽，延續(xù)了本屆錦標(biāo)賽的熟悉劇本：AI 們先走幾步開局定式，然后靠著機(jī)械式的創(chuàng)造力迅速開始出錯(cuò)。
Grok 贏下了第三盤，暫時(shí)在比分上領(lǐng)先，但隨后 Gemini 反擊成功，在第四盤將比分扳平。
比賽進(jìn)入末日加賽，Grok 執(zhí)黑出戰(zhàn)，擁有和棋即勝的優(yōu)勢(shì)（盡管本場(chǎng)比賽并沒(méi)有時(shí)間限制）。
這場(chǎng)加賽堪稱精彩紛呈。Gemini 在大部分時(shí)間里局勢(shì)占優(yōu)，甚至一度錯(cuò)過(guò)了一個(gè)「一招將死」的機(jī)會(huì) —— 這個(gè)將死模式與 o3 在第二盤戰(zhàn)勝 o4-mini 時(shí)用的那個(gè)幾乎一模一樣。
正當(dāng)觀眾緊張關(guān)注局勢(shì)時(shí)，國(guó)際象棋特級(jí)大師 Peter Heine Nielsen（現(xiàn)任 Magnus Carlsen 的教練）也借機(jī)向 Grok 提供了輔導(dǎo)建議：

最終，Gemini 在勝勢(shì)的車兵殘局中失誤白送皇后，將勝利拱手讓給 Grok。
然而，劇情并未就此告終：由于 Grok 在多一車對(duì)單兵的必勝局面下未能兌現(xiàn)優(yōu)勢(shì)，雙方三次重復(fù)局面，對(duì)局戲劇性地以和棋收?qǐng)觥１M管結(jié)局出人意料，這場(chǎng)比賽仍被評(píng)選為今日最佳對(duì)局。

Gemini 2.5 Pro 對(duì)陣 Grok 4：和棋收?qǐng)?/p>
接下來(lái)，X 的 Grok 和 OpenAI 的 o3 將在明天的決賽中相遇。谷歌的 Gemini 2.5 Pro 和 o4-mini 將爭(zhēng)奪季軍和第四名。
在昨天的投票中，大家普遍看好 Gemini 2.5 Pro 和 Grok 4 成為最終贏家。

那么現(xiàn)在，你還會(huì)把票投給 Grok 4 嗎？

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

80多年前，他們?cè)谥貞c為全國(guó)戰(zhàn)時(shí)科研機(jī)構(gòu)養(yǎng)小白鼠

全國(guó)首個(gè)高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項(xiàng)目投運(yùn)

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設(shè)計(jì)

民聲現(xiàn)場(chǎng)·市民講述：“無(wú)貨源”模式做跨境電商，竟是騙局！

4.98萬(wàn)就能買機(jī)器人通用基座？一機(jī)三態(tài)，多場(chǎng)景驗(yàn)證，配VLA大腦

煥新補(bǔ)貼成效顯現(xiàn)，11月江蘇新能源汽車零售額同比增長(zhǎng)26.2%

全站最新

80多年前，他們?cè)谥貞c為全國(guó)戰(zhàn)時(shí)科研機(jī)構(gòu)養(yǎng)小白鼠

全國(guó)首個(gè)高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項(xiàng)目投運(yùn)

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設(shè)計(jì)

民聲現(xiàn)場(chǎng)·市民講述：“無(wú)貨源”模式做跨境電商，竟是騙局！

熱門推薦

“上參下”腳步逐漸加快，多地農(nóng)信改革邁出實(shí)質(zhì)性一步

“上參下”腳步逐漸加快，多地農(nóng)信改革邁出實(shí)質(zhì)性一步

李禮輝：必須加快制度創(chuàng)新，確定金融智能體的法律地位

珠海國(guó)資五年輸血45億未果，傅氏姐弟接盤“保殼”，*ST寶鷹5800萬(wàn)押寶子公司能否續(xù)命？

百融云創(chuàng)發(fā)布RaaS戰(zhàn)略及“結(jié)果云”平臺(tái) 定義AI硅基智能新范式

聯(lián)動(dòng)科技：新產(chǎn)品QT-9800SoC測(cè)試系統(tǒng)已完成實(shí)驗(yàn)室驗(yàn)證用于測(cè)試系統(tǒng)級(jí)芯片（SoC）

80多年前，他們?cè)谥貞c為全國(guó)戰(zhàn)時(shí)科研機(jī)構(gòu)養(yǎng)小白鼠

優(yōu)必選與天鵝到家簽署戰(zhàn)略合作協(xié)議

中科曙光與商湯科技、大曉機(jī)器人合作簽約

全國(guó)首個(gè)高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項(xiàng)目投運(yùn)

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設(shè)計(jì)

民聲現(xiàn)場(chǎng)·市民講述：“無(wú)貨源”模式做跨境電商，竟是騙局！

4.98萬(wàn)就能買機(jī)器人通用基座？一機(jī)三態(tài)，多場(chǎng)景驗(yàn)證，配VLA大腦

煥新補(bǔ)貼成效顯現(xiàn)，11月江蘇新能源汽車零售額同比增長(zhǎng)26.2%

高通雙架構(gòu)戰(zhàn)略曝光：Oryon管當(dāng)下，RISC-V賭未來(lái)