GPT-5大提升，o3對抗賽奪冠，但OpenAI越來越難讓人驚艷了？

IP屬地中國·北京 編輯：顧青青觀察者網(wǎng) 時(shí)間：2025-08-08 18:23:29

（文/觀察者網(wǎng) 張廣凱編輯/呂棟）
北京時(shí)間8月8日凌晨，備受期待的OpenAI最新大模型ChatGPT-5終于正式發(fā)布，就在同時(shí)，谷歌舉辦的首屆大模型國際象棋對抗賽中，o3也以4-0完勝Grok 4奪冠。這本該是對OpenAI雙喜臨門的一天，但作為一款關(guān)注度如此之高的產(chǎn)品，網(wǎng)友也很快發(fā)現(xiàn)了GPT-5的一些小小的瑕疵。
盡管大模型的能力仍然在快速進(jìn)步，但其進(jìn)步幅度越來越難以給人帶了驚艷感了。這不是OpenAI自己的問題，甚至某種意義上，這也不是一件壞事，因?yàn)槭侵叭藗兊念A(yù)期已經(jīng)被拉到過高。但無論如何，在現(xiàn)有的算法范式下，AI大模型或許也離瓶頸越來越近了。
GPT-5水平如何？
作為OpenAI今年最受期待又屢屢跳票的重磅產(chǎn)品，ChatGPT-5今天的確給出了一些頗具說服力的測評數(shù)據(jù)，證明其推理能力有著顯著進(jìn)步。
例如，在數(shù)學(xué)能力測試AIME 2025上，GPT-5 Pro在開啟推理模式并調(diào)用工具（Python）的情況下，拿下滿分成績。即使不調(diào)用工具，GPT-5 Pro仍能拿下96.7的高分，GPT-5標(biāo)準(zhǔn)版也能拿到94.65分，顯著高于o3的88.9分。

編程方面，GPT-5在SWE-bench Verified上得到74.9分，高于o3的69.1和4o的30.8分。

博士水平的科學(xué)知識測試GPQA Diamond中，不調(diào)用工具的GPT-5 Pro推理模式拿到88.4分，創(chuàng)造新紀(jì)錄。

多模態(tài)方面，GPT-5得到84.2分，比o3的82.9分有小幅提升。

高難度的Humanity's Last Exam（人性終極測試）上，GPT-5 Pro和GPT-5在不調(diào)用工具時(shí)分別得到30.7和24.8分，較o3的14.7分大幅提升。

大模型競技場LM Arena的評分也已經(jīng)出爐，GPT-5橫掃所有單項(xiàng)的第一名。

此外，GPT-5推理模式的幻覺數(shù)量比o3少了六倍，成本方面則可以減少50-80%的token輸出量。
這些數(shù)據(jù)都證明，GPT-5算得上是一次成功的大版本升級。
但另人尷尬的是，在發(fā)布會(huì)后，網(wǎng)友迅速發(fā)現(xiàn)GPT-5在解一道極其簡單的方程時(shí)又犯了計(jì)算錯(cuò)誤：

看起來，GPT-5還是沒能解決小數(shù)比大小的問題。
而OpenAI發(fā)布會(huì)PPT里的小瑕疵，也引起了網(wǎng)友熱議。大家發(fā)現(xiàn)在這張圖表里，柱狀圖的高度出現(xiàn)了明顯錯(cuò)誤，但并不知道這是人為錯(cuò)誤還是由AI生成。

有網(wǎng)友指出，在關(guān)于機(jī)翼升力原理的回答中，GPT-5也引用了一個(gè)廣為流傳的錯(cuò)誤觀點(diǎn)。當(dāng)然，這樣的問題歸咎于AI未免過于苛刻。
馬斯克則“嘴硬”稱，Grok 4在ARC-AGI測試中仍然打敗了GPT-5。

做題好是不是真的好？
那么，如何評價(jià)GPT-5的真實(shí)水平，或許日前的大模型國際象棋對抗賽恰好給我們提供了一個(gè)很好的參考。

同樣在今天凌晨結(jié)束的對抗賽上，OpenAI旗下的o3以4-0完勝Grok 4，奪得最終冠軍。盡管Grok 4在此前兩輪中都表現(xiàn)出色，但在決賽中，隨著對局長度增加，Grok 4也開始表現(xiàn)出棋力下降。
例如在第一局中，Grok 4莫名其妙地放棄了自己的象，并且沒有獲得任何明顯的回報(bào)，而Grok 4也并未在推理中說明理由。

o3盡管表現(xiàn)相對出色，在昨天的半決賽中還下出過正確率評分100%的棋局，但縱觀整個(gè)比賽過程，也不乏低級失誤。

或許有人會(huì)質(zhì)疑，讓AI下棋究竟能證明什么？AI對抗賽的勝負(fù)，是不是僅僅取決于它們使用了多大規(guī)模的訓(xùn)練數(shù)據(jù)？DeepSeek下棋不好，但是作詩是不是更好？
事實(shí)上，如果只糾結(jié)于下棋或者作詩的技能水平，說明并未理解谷歌采用這種比賽形式的邏輯。
此次國際象棋比賽的意義，并非考驗(yàn)大模型的算力，而是考驗(yàn)其推理能力。
如果大模型在接受了大量棋譜訓(xùn)練之后，體現(xiàn)出高超棋力，這只能證明AI的記憶力或者算力強(qiáng)大，而這件事在2017年就已經(jīng)被AlphaGo證明過了。
但是由于這些通用大模型都沒有接受過專門的棋譜訓(xùn)練，因此往往只能在開局階段憑借記憶下出經(jīng)典開局。在幾個(gè)回合之后，大模型已經(jīng)無法找到人類棋譜作為參考，它們的思維結(jié)構(gòu)也并非像AlphaGo那樣專為下棋設(shè)計(jì)。因此，這時(shí)候的AI推理，是跟人類相同的推理方式，通過語言邏輯來推演棋盤變化。
上述無工具的數(shù)學(xué)測試，起到的也是類似作用：考驗(yàn)AI用人類邏輯進(jìn)行計(jì)算的能力，而不是使用專門的機(jī)器算法。
因?yàn)闊o論是AlphaGo也好，還是計(jì)算工具也好，這樣的AI在特定任務(wù)中無比強(qiáng)大，但是卻毫無泛化性，不能解決任何其它問題。只有使用人類邏輯推理的模型，才能在人類世界中擁有最好的泛化性。
而在這個(gè)維度上，我們可以看到，無論是o3、Grok 4，還是最新升級的GPT-5，哪怕他們大部分時(shí)間都能夠解決復(fù)雜問題，但也還會(huì)犯下對人類來說的低級錯(cuò)誤。這是現(xiàn)有的Next Token Predicting范式下仍然難以完全克服的問題，也說明它們或許離AGI的最終形態(tài)還有遙遠(yuǎn)距離。
OpenAI顯然也不再希望把外界的胃口掉得過高。在本次發(fā)布會(huì)上，我們可以看到OpenAI花了更多時(shí)間介紹GPT-5在垂直場景應(yīng)用的能力，例如生成小游戲、回答健康問題的能力，這都是為了讓AI與人類更好地共存與協(xié)作。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

80多年前，他們在重慶為全國戰(zhàn)時(shí)科研機(jī)構(gòu)養(yǎng)小白鼠

全國首個(gè)高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項(xiàng)目投運(yùn)

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設(shè)計(jì)

民聲現(xiàn)場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

4.98萬就能買機(jī)器人通用基座？一機(jī)三態(tài)，多場景驗(yàn)證，配VLA大腦

煥新補(bǔ)貼成效顯現(xiàn)，11月江蘇新能源汽車零售額同比增長26.2%

全站最新

80多年前，他們在重慶為全國戰(zhàn)時(shí)科研機(jī)構(gòu)養(yǎng)小白鼠

全國首個(gè)高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項(xiàng)目投運(yùn)

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設(shè)計(jì)

民聲現(xiàn)場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

熱門推薦

“上參下”腳步逐漸加快，多地農(nóng)信改革邁出實(shí)質(zhì)性一步

“上參下”腳步逐漸加快，多地農(nóng)信改革邁出實(shí)質(zhì)性一步

李禮輝：必須加快制度創(chuàng)新，確定金融智能體的法律地位

珠海國資五年輸血45億未果，傅氏姐弟接盤“保殼”，*ST寶鷹5800萬押寶子公司能否續(xù)命？

百融云創(chuàng)發(fā)布RaaS戰(zhàn)略及“結(jié)果云”平臺定義AI硅基智能新范式

聯(lián)動(dòng)科技：新產(chǎn)品QT-9800SoC測試系統(tǒng)已完成實(shí)驗(yàn)室驗(yàn)證用于測試系統(tǒng)級芯片（SoC）

80多年前，他們在重慶為全國戰(zhàn)時(shí)科研機(jī)構(gòu)養(yǎng)小白鼠

優(yōu)必選與天鵝到家簽署戰(zhàn)略合作協(xié)議

中科曙光與商湯科技、大曉機(jī)器人合作簽約

全國首個(gè)高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項(xiàng)目投運(yùn)

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設(shè)計(jì)

民聲現(xiàn)場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

4.98萬就能買機(jī)器人通用基座？一機(jī)三態(tài)，多場景驗(yàn)證，配VLA大腦

煥新補(bǔ)貼成效顯現(xiàn)，11月江蘇新能源汽車零售額同比增長26.2%

高通雙架構(gòu)戰(zhàn)略曝光：Oryon管當(dāng)下，RISC-V賭未來