機(jī)器之心報(bào)道
機(jī)器之心編輯部
明天,Grok 對(duì)陣 OpenAI 的 o3。
誰(shuí)也沒(méi)想到,谷歌攢的 Kaggle AI Chess 比賽(即大模型國(guó)際象棋對(duì)抗賽),在半決賽中,Grok 4 擊敗 Gemini 2.5 Pro,進(jìn)入總決賽!
![]()
在昨天的比賽中,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰(zhàn)績(jī)分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晉級(jí)半決賽。
今天的戰(zhàn)況依舊讓人猜不著走向,Gemini 2.5 Pro 敗了。
馬斯克昨天點(diǎn)評(píng)比賽結(jié)果的話術(shù),今天依舊有用:「國(guó)際象棋太過(guò)簡(jiǎn)單,對(duì) Grok 來(lái)說(shuō),只是副作用,我們沒(méi)花多少力氣放在象棋優(yōu)化上。」
今天 Grok 4 闖入總決賽,不知馬斯克是不是更看不上這場(chǎng)比賽了。
![]()
我們?cè)倩氐竭@場(chǎng)半決賽。
戰(zhàn)況是Grok 4 和 o3 分別戰(zhàn)勝了 Gemini 2.5 Pro 和 o4-mini,成功晉級(jí)決賽。雖然 o3 的勝利在大家意料之中,但 Grok 與 Gemini 之間的激烈對(duì)決卻讓所有人大跌眼鏡 —— 雙方在常規(guī)賽打成 2:2 平,最終通過(guò)加賽才分出勝負(fù)。
明天是比賽的最后一天。屆時(shí),將迎來(lái)本次 AI 象棋巔峰對(duì)決的冠軍之戰(zhàn),X 對(duì)戰(zhàn) OpenAI。
![]()
對(duì)戰(zhàn)表
o4-mini 對(duì)陣 o3 :0-4
在初賽中,o4-mini 和 o3 均以 4-0 的全勝戰(zhàn)績(jī)淘汰了 DeepSeek-R1 以及 Kimi k2,同樣出身 OpenAI 的兩大模型在半決賽中正面對(duì)決。
比賽的結(jié)果基本在預(yù)料之中,o3 以 4 比 0 橫掃對(duì)手 o4-mini,順利晉級(jí)決賽。
在 OpenAI 的推理模型體系中,o3 作為一款強(qiáng)大的通用推理模型,在多個(gè)基準(zhǔn)測(cè)試中均取得了優(yōu)異成績(jī),展現(xiàn)出卓越的穩(wěn)定性與復(fù)雜推理能力。相比之下,o4-mini 是一款輕量級(jí)模型,旨在在速度、成本與性能之間實(shí)現(xiàn)更好的平衡。
因此 o4-mini 輸給 o3 的確符合預(yù)期,是因?yàn)橄笃暹@種任務(wù)對(duì)模型的穩(wěn)定推理能力和容錯(cuò)性要求很高,這恰恰是輕量化模型最容易妥協(xié)的地方。
谷歌舉辦這場(chǎng)比賽的主要目的是為了分析 AI 模型是如何思考的。因此,整場(chǎng)對(duì)局中的第二盤可能對(duì)谷歌來(lái)說(shuō)意義不大,但對(duì)普通棋手而言卻相當(dāng)值得關(guān)注。
在這一盤中,o3 僅用 12 步就完成了致勝攻擊,手法頗有 Puzzle Rush 風(fēng)格。雖然不是一個(gè)真正意義上的悶殺(smothered mate),但已經(jīng)非常接近了,依然令人驚嘆。
![]()
o3 的致勝攻擊
盡管 AI 在國(guó)際象棋上的表現(xiàn)一直不盡如人意,但 o3 在這盤棋中卻拿下了完美的 100 分準(zhǔn)確率評(píng)分。
![]()
整場(chǎng)比賽的剩余部分,大體上延續(xù)了本次錦標(biāo)賽至今的老套路:某個(gè)弱 AI(這次是 o4-mini)在某個(gè)時(shí)間點(diǎn)開始失去局勢(shì)控制,連續(xù)出現(xiàn)致命失誤,最終輸?shù)魧?duì)局。
不過(guò)有一盤棋例外 —— 它可能是本屆比賽中看起來(lái)最自然流暢的一局。這是本場(chǎng)對(duì)決的第三盤,相較其他對(duì)局,這一盤展現(xiàn)出了真正的高質(zhì)量國(guó)際象棋。
其中,o3 下出的兩個(gè)中間招法(in-between moves)—— 第 12 回合的 12…Bb4+ 和第 19 回合的 19…e3+ —— 尤其令人印象深刻。
![]()
o3 令人印象深刻的走棋
Gemini 2.5 Pro 對(duì)陣 Grok 4:2.5-2.5
Grok 在國(guó)際象棋領(lǐng)域的統(tǒng)治力依然強(qiáng)勢(shì),但這次的勝利之路并不平坦,甚至可以說(shuō)是比賽到目前為止最焦灼的一輪。
準(zhǔn)確的說(shuō),馬斯克輕描淡寫「國(guó)際象棋是副作用」的 Grok 差一點(diǎn)就翻了車,最終以和棋收?qǐng)雒銖?qiáng)取勝。
雖然最終比賽結(jié)果是 Gemini 2.5 Pro 以 2-3 不敵 Grok 4,但在官方博客中,比分仍被標(biāo)注為 2.5 - 2.5 平局。
比賽一直打到特殊的末日加賽(armageddon tiebreak,是指國(guó)際象棋比賽中,在常規(guī)賽或加賽打平后,用于決出勝負(fù)的特殊加賽方式)才決出勝負(fù),最終 ,Grok 執(zhí)黑在一盤 55 步的和棋中晉級(jí) —— 盡管當(dāng)時(shí) Grok 明顯處于勝勢(shì)。
但我們從頭說(shuō)起。今天 Grok 的表現(xiàn)異常混亂 ,頻頻送子得分。事實(shí)上,本場(chǎng)首盤由 Gemini 先拔頭籌,Grok 相繼丟掉了一匹馬、一輛車,最后被將死,痛失一局。
第二盤棋中,Gemini 和 Grok 在第 11 步之前都嚴(yán)格遵循了開局定式。正如我們?cè)谥暗谋荣愔杏^察到的那樣,AI 一旦脫離開局理論、進(jìn)入自主思考階段,就很容易開始出錯(cuò)。
而 Grok 和 Gemini 至今為止都表現(xiàn)出了比其他模型更長(zhǎng)時(shí)間遵循理論的能力,這也可能是本場(chǎng)對(duì)決如此膠著的原因之一。
不過(guò),也如預(yù)期那樣,一旦 Grok 脫離定式,失誤就接踵而至。Grok 再次丟掉一匹馬,而 Gemini 卻出現(xiàn)幻覺,主動(dòng)送后,隨后又全盤崩塌,最終將第二盤拱手相讓。
![]()
Grok 脫離定式后失誤
![]()
Gemini 產(chǎn)生幻覺
接下來(lái)的兩盤棋又是決定性的比賽,延續(xù)了本屆錦標(biāo)賽的熟悉劇本:AI 們先走幾步開局定式,然后靠著機(jī)械式的創(chuàng)造力迅速開始出錯(cuò)。
Grok 贏下了第三盤,暫時(shí)在比分上領(lǐng)先,但隨后 Gemini 反擊成功,在第四盤將比分扳平。
比賽進(jìn)入末日加賽,Grok 執(zhí)黑出戰(zhàn),擁有和棋即勝的優(yōu)勢(shì)(盡管本場(chǎng)比賽并沒(méi)有時(shí)間限制)。
這場(chǎng)加賽堪稱精彩紛呈。Gemini 在大部分時(shí)間里局勢(shì)占優(yōu),甚至一度錯(cuò)過(guò)了一個(gè)「一招將死」的機(jī)會(huì) —— 這個(gè)將死模式與 o3 在第二盤戰(zhàn)勝 o4-mini 時(shí)用的那個(gè)幾乎一模一樣。
正當(dāng)觀眾緊張關(guān)注局勢(shì)時(shí),國(guó)際象棋特級(jí)大師 Peter Heine Nielsen(現(xiàn)任 Magnus Carlsen 的教練) 也借機(jī)向 Grok 提供了輔導(dǎo)建議:
![]()
最終,Gemini 在勝勢(shì)的車兵殘局中失誤白送皇后,將勝利拱手讓給 Grok。
然而,劇情并未就此告終:由于 Grok 在多一車對(duì)單兵的必勝局面下未能兌現(xiàn)優(yōu)勢(shì),雙方三次重復(fù)局面,對(duì)局戲劇性地以和棋收?qǐng)觥1M管結(jié)局出人意料,這場(chǎng)比賽仍被評(píng)選為今日最佳對(duì)局。
![]()
Gemini 2.5 Pro 對(duì)陣 Grok 4:和棋收?qǐng)?/p>
接下來(lái),X 的 Grok 和 OpenAI 的 o3 將在明天的決賽中相遇。谷歌的 Gemini 2.5 Pro 和 o4-mini 將爭(zhēng)奪季軍和第四名。
在昨天的投票中,大家普遍看好 Gemini 2.5 Pro 和 Grok 4 成為最終贏家。
![]()
那么現(xiàn)在,你還會(huì)把票投給 Grok 4 嗎?





京公網(wǎng)安備 11011402013531號(hào)