光錐智能 魏琳華
從2023年底OpenAI CEO Sam Altman第一次提到GPT-5,到今天模型的正式發布,時間過去了一年半。
如今,人們仍然熬夜圍觀OpenAI的發布會,但徹夜討論的呼聲中少了驚呼,多了質疑。
值得欣慰的是,從模型性能上來說,OpenAI成功扳回了之前下滑的口碑。在發布會上拿出的GPT-5,依然做到了多方面能力SOTA,更是靠GPT-5直言世界最強編程模型,狙擊Claude的領先地位。
但繞不開的一些固有印象是,OpenAI拉開同行的差距,遠遠不及GPT-3、GPT-4的斷崖式領先。
OpenAI的同行者也虎視眈眈。不說Anthropic本周官宣要在當月發布大版本更新的模型,馬斯克更是刷屏一晚,強調自家模型Grok-4在部分測試上已經超過了OpenAI的新模型。
OpenAI又能在這個新王座上坐多久?Altman不語,只是一味地講起了大模型便宜落地的故事。
盯上最強代碼模型GPT-5全面升級
刷新的性能分數、極高的性價比、針對性優化的幻覺問題和超長上下文,方方面面的優化,都是為了讓GPT-5成為一個更適合干活的大模型。
首先在架構上,GPT-5是一個統一架構版本的模型,由三個部分組成:一個基礎模型、一個具有深度推理能力的GPT-5 thinking模型,加上一個實時路由器。
這樣設計的好處是,實時路由器能根據對話類型、問題復雜性、工具需求以及用戶意圖快速決定使用哪個模型。比如當用戶的提示詞包括幫我認真思考一下這類話術,它就會調用深度推理模型。
在發布會前一天就大肆預熱的Altman,就在X上發圖暗示GPT-5的性能優勢,在發布會上,他也強調了對GPT-5的信心。
發布會現場,OpenAI通過一些案例具體展示了OpenAI的編程能力,比如讓它做一個闡釋伯努利效應的網頁,在兩分鐘內,GPT-5跑出了400行代碼,做了一個支持調整參數的網頁版本。
除了這種面向C端用戶體驗的案例,在B端實際使用上,OpenAI也面向開發者演示了GPT-5寫代碼落地的能力,GPT-5不再埋頭寫代碼,而是把開箱可用的落地能力夯實了。比如,GPT-5在后臺寫代碼并自行優化迭代之后,按照需求開發了一個財務信息看板,UI做得也足夠漂亮。
不過,OpenAI的翻車變成了第一個出圈的討論。在發布會演示的現場,OpenAI上來就犯了一個非常嚴重和低級的錯誤:在現場展示的圖表中,數字大小和柱狀圖顯示的關系甚至都匹配不上,69.1和30.8的柱圖高度一模一樣,52.8甚至比69.1更大......
除了上述優化外,GPT-5還在模型的超長上下文理解、幻覺問題等方面做調整,一切的努力都是為了讓這個模型能夠更好地落地。
根據OpenAI給出的數據,GPT-5在上下文理解上的處理效果不僅有所提升,并且在文本更長的階段(比如輸入在128-256k長度),可以從圖示看到,GPT-5理解能力下降的速度顯著低于其他模型。再有,GPT-5還顯著降低了幻覺問題,其事實錯誤率比GPT-4o降低了45%,這對于模型應用在法律、醫療等要求精準的行業算是利好。
極低的價格,也是OpenAI愿意限量免費開放給所有用戶使用的底氣。目前,免費用戶也可以體驗到GPT-5,不過區別于付費用戶的不限量開放,前者會在用到一定額度后自動切換為GPT-5-mini模型使用。
此外,針對開發者使用的不同需求,GPT-5還在API 中引入了新功能,通過控制冗余量(verbosity)的方式,分為低中高三檔,幫助開發者控制AI生成內容的長短。
難坐穩的SOTA但價格或許能贏過一切
GPT-5固然在多項能力上刷新了SOTA紀錄,但這種領先優勢,不再是需要長期追趕的鴻溝。
先從本次OpenAI最先喊出的最強編程模型來說,領先于Claude Opus 4.1僅0.4%的優勢,很有可能在本月被Anthropic趕超。
從去年挖角OpenAI成員,再到部分能力超過OpenAI旗艦模型。Anthropic正處在像之前OpenAI狙擊Google新模型的階段,緊緊追著OpenAI的步伐。
本月,在OpenAI發布兩個開源模型的當天,Anthropic早其十幾分鐘,發布了小更新版本Claude 4.1。特別是在這家公司還預告了大幅度更新模型即將在本月發布的情況下,0.4%的微弱差距,很難讓人對OpenAI保持樂觀。
微弱的優勢同樣造成了評測口碑的兩極分化。即使OpenAI喊出了最佳編程模型的地位,但在用戶使用體驗的階段,OpenAI還沒有形成一邊倒的優勢。
有用戶表示,對比GPT-5和Claude,后者跑出的各個案例都明顯優于前者,在UI和前端效果上更佳;也有用戶認為,用GPT-5跑出來的代碼效果更精細。
免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。
熱門推薦
- 標本制作“神仙打架”!中國動物標本大賽首次在滬舉辦
- 今日頭條劇透新風向!AI內容過剩時代,“深度”反而更稀缺
- 今天“世界冥想日”,在這樣的亭子里,AI來幫人類“智造”情緒價值
- 馬斯克點贊宇樹機器人伴舞視頻
- 中國首塊L3級自動駕駛專用正式號牌誕生,落戶長安深藍
- 首發“年度半導體上市公司領航獎”
- 王曉剛和他的“世界模型”:一人管十狗,先讓四足機器人上街干活|智能涌現專訪
- 在海外賣爆的清閑智能,開始進軍線下,體驗店變身“種草現場”
- 可靈AI亮相首屆香港國際AI藝術節 攜產學研代表探討AI創作新趨勢
- SpaceX回應星艦爆炸事件傳聞:報道誤導公眾
- 華為鴻蒙系統開發者人數突破1000萬
- 盧偉冰:小米17 Ultra處理器/相機/內存成本上漲非常大
- 騙了全網流量的“吃豆包”圖背后:AI虛擬內容傳播怎么治?
- 今日頭條:將“優質深度”確立為2025年核心平臺內容戰略
- 北京人形開源首個通過具身智能國標測試的具身大模型XR-1





京公網安備 11011402013531號