![]()
一覺醒來,朋友圈被 GPT-5 刷了屏。
在昨晚長達一個多小時的發布直播中,OpenAI 介紹了 GPT-5 的性能,演示了諸多實用案例,在此不贅述,感興趣的朋友可以移步:剛剛,奧特曼發布 GPT-5!人人免費用「博士級」智能,基準圖錯誤遭全網吐槽。
奧特曼發推表示,GPT-5 是我們迄今為止最智能的模型。
![]()
LMArena 基準測評結果也已出爐,GPT-5 在文本、網頁開發、視覺領域、難題、編程、數學、創意、長查詢等各個領域都排名第一。
![]()
不過,網上對 GPT-5 的評價褒貶不一。
有人表示,提前體驗 GPT-5 將近兩周,發現它展現了巨大的進步,超越了之前的版本,并且在科學推理、事實準確性和創意表達方面達到了新的高度。
![]()
網友 @emollick 則認為 GPT-5 非常聰明,并且能完成各種任務,是一個非常重大的突破。
比如讓它制作一個程序化的野獸派建筑生成器,可以以酷炫的方式拖拽和編輯建筑、并不斷改進它。
也有人表示,GPT-5在前端體驗、減少幻覺和提升寫作質量方面有顯著改進,免費用戶和企業用戶將感受到明顯的提升。
![]()
但也有不少人給出了差評。
網友 @petergyang 讓 GPT-5 制作一個《Flappy Bird》小游戲,GPT-5 生成的游戲網頁根本點不進去:
同時,他還貼臉開大,拉來 Claude Sonnet4 與之對比,輸入同樣的提示詞,Claude Sonnet4 生成效果相當不錯,畫風可愛、真實可玩。
還有網友使用 GPT-5 重構代碼庫,盡管代碼看起來非常漂亮、整潔,但最終并沒有成功運行。
![]()
明明都是 GPT-5,為什么大家的體驗結果大相徑庭?
賓夕法尼亞大學沃頓商學院教授 Ethan Mollick 認為,由于 GPT-5 是個集成模型,其中一些模型表現優異,而另一些則較為平庸。 OpenAI 并未公開底層模型選擇的細節,這種不透明性可能導致用戶對 GPT-5 的表現感到困惑。
![]()
接下來,我們就奉上一手實測,來看看 GPT-5 是個什么水平。
一手實測
目前,GPT-5 已向 20% 的付費用戶推出,機器之心編輯部也被幸運抽中。
![]()
升級后的頁面長得相當簡潔,之前像 GPT-4.5、GPT-4o 等模型圖標都消失,取而代之的是 GPT-5、GPT-5 Thinking 和 GPT-5 Pro。
![]()
接下來就是實測環節。
先來看看它的寫作能力。
我們讓它模仿林黛玉的風格,寫一篇吐槽工作的段子。
GPT-5 生成的字里行間確實一股子班味,但少了些林妹妹陰陽怪氣的調調,比喻句用的倒挺多,但「老板已如寒霜撲面而來」是個什么鬼。
![]()
接下來讓 GPT-5 講三個能讓人笑抽風的笑話,完全 get 不到它的笑點在哪里:
![]()
再來試試它的中文理解能力。
我們出了一道像繞口令的題目:大舅去二舅家找三舅說四舅被五舅騙去六舅家偷七舅放在八舅柜子里九舅借給十舅發給十一舅工資的 1000 元。請問誰才是小偷?
雖然涉及一系列親戚,但 GPT-5 并沒被繞暈,找到偷竊的直接行為人四舅。
![]()
而對于那道經典的「木棍過城門」的推理題,GPT-5 依然搞不定。
![]()
最后,我們著重測評了它的編碼能力。
輸入提示「Generate an SVG of a pelican riding a bicycle」(生成鵜鶘騎自行車的 SVG 圖像),GPT-5 僅思考 6 秒并很快生成完畢,結果生成的鵜鶘相當潦草,自行車的輪子也和主體分離。

我們又讓它使用 p5.js 創建一個精彩的動畫,GPT-5 直接罷工了,輸出一個黑屏界面。
![]()
本以為是提示詞太簡單導致 GPT-5 難以理解,但相同的內容給到 Gemini,Gemini 給出了結果。

這一波測下來,感覺不像是 GPT-5 的實力,于是我們又讓它創建一個動畫天氣卡片,提示詞:「創建一個 HTML 文件,包含 CSS 和 Javascript,用來生成動畫天氣卡片,卡片用不同的動畫形式直觀地表示以下天氣狀況:風 (例如移動的云、搖曳的樹木)、雨 (例如落下的雨滴)、太陽 (例如閃耀的光線)、雪 (例如飄落的雪花、積雪),并排顯示所有卡片,底部有一個漂亮的按鈕可以切換動畫速度。」
看起來,輸入詳細的提示,GPT-5 表現會好一些。

接著我們復現了一遍奧特曼給出的提示「use beatbot to make a sick beat to celebrate gpt-5(使用 beatbot 制作精彩節拍來慶祝 GPT-5 的發布)」,并且要求更激昂一些。
只見 GPT-5 思考了 13 秒,就把一首節奏激昂的曲子做出來了。
聽起來整體效果還不錯,要知道,我們只是給了一句提示就達到這樣的效果。而且,整體界面布局也很美觀,左邊欄音軌部分,可以選擇性刪除,刪除后,節奏也會隨之改變。
![]()
還是考驗編程能力 「太陽系 8 大行星運行軌跡圖,動態的。 」我們提出要求,GPT-5 嗖嗖的就把代碼寫好了。你可以下載代碼,也可以在畫布中直接運行。

運行結果是這樣的,我們還可以調節行星的運行速度。

我們注意到,GPT-5 在這個項目完成之后會繼續追問要不要在優化,然后,我們按照給出的優化方向「 做成更真實的橢圓軌道和軌道傾角。」結果如下:

GPT-5 開發小游戲如何呢?我們給出提示:幫我做一個俄羅斯方塊的游戲 。
接到指令后,GPT-5 開始寫代碼,一串長長的代碼:

運行結果如下:

再來一個物理測試:「一個球在旋轉的六邊形內彈跳。 小球應受到重力和摩擦力的影響,而且必須真實地從旋轉的墻壁上彈起。」

可視化結果如下,拖動不同按鈕,小球軌跡也隨之改變。

接下來我們提出要求「創建一個高度逼真的物理布料模擬,模擬不同材質(棉、絲綢、皮革、橡膠等)在風力、重力和碰撞作用下的動態行為。 」不知為何,一開始 GPT-5 生成的程序不能運行,然后 GPT-5 自行檢查了一遍,程序可以運行了,但是結果……

「做一個功德箱,每次敲一下,功德加一,滿分 100 分 」。功能是實現了,但操作界面著實有些簡單糊弄。

我們繼續輸入提示詞:Code simulation of water in a bucket that is rocking back and forth.(編寫模擬水桶中的水來回搖晃的代碼),GPT-5 又罷工了。
![]()
但相同的提示詞發給 Gemini 2.5 Pro,雖然生成的效果也一般,但起碼能呈現出一個可視化效果。

我們還試了下 GPT-5 生成圖片功能,讓它生成一幅桃樹的工筆畫,效果還是不錯的。
![]()
我們測評了一圈,實話實說,GPT-5 的表現著實不穩定。
在寫作能力方面,它表現出一定的文學性,但在細節和情感捕捉上稍顯生硬,幽默感也不足;經典的「木棍過城門」的題目,它仍然做不對,這也表明其推理能力仍有提升空間。
在編碼能力方面,GPT-5 的表現不一,雖然在一些簡單任務中(如生成天氣卡片的 HTML 代碼)有所進展,但在更復雜的任務(如使用 p5.js 生成動畫時)表現出明顯的不足,尤其是生成的結果未能正確呈現出預期效果,甚至直接罷工。
這也難怪網友吐槽:還我 GPT-4.5!
![]()
https://x.com/vasumanmoza/status/1953531950137815374
https://x.com/apples_jimmy/status/1953517411862282330
https://x.com/emollick/status/1953502029126549597
https://x.com/petergyang/status/1953633559387984179
https://x.com/lmarena_ai/status/1953504958378356941





京公網安備 11011402013531號