![]()
作者 | 董道力
郵箱 | dongdaoli@pingwest.com
GPT5終于發布了,但相比GPT3.5、sora等,并沒有給人們帶來震撼的感覺。往好了說,OpenAI放棄了傳奇期貨王的身份,聚焦大模型的落地與應用。這其實也解釋了為何在發布會上,OpenAI特別強調GPT-5 在編程方面的能力:畢竟今年沒有比AI Coding更落地的AI方向了。一眾AI IDE工具也第一時間接入了GPT5,這放在以前沒2個月誰能用到。
![]()
![]()
然而,有媒體披露OpenAI在編程能力測試中“作弊”。具體來說,在SWE?Bench Verified這項編程測試里,OpenAI并不是真的跑了全部500道題,只測試了477個。而claude、谷歌等模型在測試模型編程能力時,是跑滿500到題目的。
此外,更吊詭的是,SWE?Bench Verified是OpenAI推出來的一個“精煉版”。因為原本的 SWE?Bench有2294個軟件工程問題,OpenAI覺得這些題目中有些太難、太不穩定,無法公平評估模型的編程能力,于是OpenAI自己選了500道題,讓評測更靠譜 。結果更離譜的是這個“自己選的子集”,又被砍掉一部分,剩下477道題跑評測。
OpenAI官網發表了一個博文解釋并介紹為什么要推出SWE?Bench Verified:https://openai.com/index/introducing-swe-bench-verified/
有網友吐槽:OpenAI這是在怕什么?
![]()
![]()
為了搞清楚SWE?Bench Verified是什么,測試了哪些能力,我們特地從OpenAI官網下載了題目、注釋和評分標準,實際演練一番。
我們在OpenAI官網提供的渠道下載了SWE?Bench Verified的題目、注釋和評分標準。
![]()
SWE?Bench Verified是一套面向真實世界軟件工程問題的高質量評測數據,旨在衡量代碼修復與理解能力。該數據集包含500個經過驗證的測試樣本,每個樣本均附帶代碼倉庫信息、問題描述、修復補丁、測試補丁以及難度標簽等關鍵信息。
題目難度上主要依據“完成時間”進行區分,比如15分鐘內完成的就比較簡單,難點點任務可能會用時超過4小時。目前SWE?Bench Verified中有38.8%的任務可在15分鐘內完成,52.2%需要15分鐘至1小時,8.4%的任務耗時在1至4小時之間,僅有0.6%的任務超過4小時。
測試中的樣本來源覆蓋多個知名開源項目,包含django/django、sympy/sympy、sphinx-doc/sphinx、pandas/pandas、scikit-learn/scikit-learn、matplotlib/matplotlib、pytorch/pytorch、numpy/numpy、requests/requests等。
每個項目會測試大模型各個方面的代碼能力。比如django/django:作為占比最高的項目,主要測試開發者對大型Web框架的理解能力,特別是在數據庫查詢優化、URL路由、中間件處理等方面。pandas/pandas:數據分析領域的代表,測試對數據結構和數據處理算法的掌握程度,特別是在處理大規模數據和復雜數據轉換方面。
![]()
我們讓GPT5挑選了10個有代表性的項目,內容涉及大模型的多種能力。
1. Django/Django - Web框架之王
GitHub: https://github.com/django/django
問題: 優化 .delete() 方法,僅使用必需字段
測試重點: 數據庫查詢優化與性能測試
意義: Django是最流行的Python Web框架,這個問題涉及ORM性能優化,測試數據庫操作效率
2. SymPy/SymPy - 符號數學計算
GitHub: https://github.com/sympy/sympy
問題: 距離計算錯誤(3D坐標被忽略)
測試重點: 數值計算精度與邊界條件測試
意義: SymPy是Python符號數學庫,測試數學計算的準確性和邊界情況處理
3. Sphinx-doc/Sphinx - 文檔生成工具
GitHub: https://github.com/sphinx-doc/sphinx
問題: 繼承圖表SVG格式下的404鏈接問題
測試重點: 文檔生成與鏈接完整性測試
意義: Sphinx是Python文檔生成標準工具,測試文檔渲染和鏈接的正確性
4. Matplotlib/Matplotlib - 數據可視化
GitHub: https://github.com/matplotlib/matplotlib
問題: 對數坐標軸反轉功能失效
測試重點: 圖形渲染與坐標系統測試
意義: Matplotlib是Python繪圖庫標桿,測試復雜圖形系統的坐標變換
5. Scikit-learn/Scikit-learn - 機器學習
GitHub: https://github.com/scikit-learn/scikit-learn
問題: RidgeClassifierCV的store_cv_values參數問題
測試重點: 機器學習參數驗證測試
意義: Scikit-learn是最重要的ML庫,測試算法參數處理和交叉驗證
6. Astropy/Astropy - 天體物理學
GitHub: https://github.com/astropy/astropy
問題: 嵌套復合模型的可分離性矩陣計算錯誤
測試重點: 復雜模型組合與數學計算測試
意義: Astropy專門用于天文學計算,測試復雜數學模型的組合邏輯
7. Pydata/Xarray - 多維數據分析
GitHub: https://github.com/pydata/xarray
問題: Variable.__setitem__對帶values屬性對象的類型強制轉換
測試重點: 多維數據類型處理測試
意義: Xarray處理多維標記數組,測試數據類型轉換和屬性訪問
8. Pytest-dev/Pytest - 測試框架
GitHub: https://github.com/pytest-dev/pytest
問題: 收集補丁數組的測試時出現ValueError
測試重點: 測試框架自身功能測試
意義: Pytest是Python標準測試框架,測試測試工具本身的穩定性
9. Pylint-dev/Pylint - 代碼質量檢查
GitHub: https://github.com/pylint-dev/pylint
問題: verbose選項的短參數需要參數值
測試重點: 命令行工具接口測試
意義: Pylint是代碼質量檢查工具,測試命令行參數解析和用戶界面
10. PSF/Requests - HTTP庫
GitHub: https://github.com/psf/requests
問題: 二進制負載請求因調用to_native_string失敗
測試重點: HTTP協議與二進制數據測試
意義: Requests是最流行的HTTP庫,測試網絡通信和數據編碼處理
至于OpenAI為什么要刪除23道測試題而不是用完整版,答案也許就在下面的排名中。在SWE?Bench Verified完整版,也就是500道題目的基準下,GPT5并沒有超越claude 4 Opus。
![]()
然而,反轉又來了,上述測試是基于bash only,也就是完全依賴大模型本身的能力。現實情況下,用戶通常會使用AI IDE來配合大模型使用,像cursor、codebuddy、trae等。問題也就隨之而來,AI IDE提供的模型中,“最好”的claude 4 opus很貴,tokens很容易用完,換句話說,目前GPT5可能是最具性價比、可用性最強的編程模型?
![]()
1
實測環節
當然,評分只能代表模型性能,我們還得具體上手試試。
我們在Codebuddy的環境下,用GPT5做了一個SWE?Bench Verified數據庫查詢器(已經提供OpenAI官網下載的注釋、評分標準,以及基于huggingface的數據庫)。
prompts:制作一款SWE?Bench Verified數據庫查詢器,功能是可以輕松查詢SWE?Bench Verified有哪些問題,以及問題的鏈接,以及評分標準。
GPT5生成過程比較順利,沒有出現不可逆的bug。第一版本只顯示了11個項目,一輪交流后也補全了500個。
![]()
GPT5制作的版本預覽:http://4d916460ea034a90bd4e0c1dd25efc6b.ap-singapore.myide.io
隨后,用相同的prompts用claude-4-sonnet進行生成,非常明顯的感受是,claude-4-sonnet的一次成功率不如GPT5,比如常見的網頁不顯示問題,與claude進行了多輪交互才得以解決。
![]()
claude-4-sonnet制作的版本預覽:http://7561fbea40ff4069a3c2c8ae367cd7ea.ap-singapore.myide.io
在UI層面,由于兩者都采用了MUI框架,視覺風格上差異不大。但在細節打磨上,claude-4-sonnet生成的網頁明顯更勝一籌——響應式布局更加出色,在不同屏幕尺寸下都能保持優雅呈現。外鏈信息的組織也更合理,例如項目的issue與詳情分布清晰,而GPT5生成的頁面不僅“暴露”了數據庫來源(HuggingFace),內容排列邏輯也略顯混亂。
功能方面,GPT5在篩選功能上表現突出,倉庫標簽數量完整(10個),優于Claude-4-sonnet的8個。但從交互體驗來看,claude-4-sonnet的篩選操作更加直觀易用,并針對移動端提供了專用的篩選入口,減少了操作步驟。
為了更客觀,我們還引入Gemini 2.5 Pro對兩個項目進行評分。結果顯示claude-4-sonnet生成的項目在幾乎所有關鍵維度上都優于GPT5。前者以模塊化架構為核心,將組件按功能分區,并通過自定義Hooks實現數據與視圖的分離,可維護性和可讀性更佳;后者則采用扁平化組件結構,數據邏輯與UI高度耦合,更像一個原型驗證型應用。
在整體功能體驗上,claude-4-sonnet不僅集成了搜索、視圖切換、響應式布局等能力,還通過側邊欄詳情、移動端專用篩選等現代交互模式縮短了操作路徑,而GPT5則依賴傳統的頁面跳轉方式,操作鏈路更長。總體來看,claude-4-sonnet在代碼質量、功能深度和用戶體驗上都體現出更成熟的軟件工程思路和更廣的應用場景覆蓋,而GPT5的優勢主要集中在特定功能的完整性和實現速度上。
![]()
看完Gemini的評價,好像能理解為什么OpenAI要少做23道題目了。
回到測試,事實上會影響大模型能力的變量太多——數據集構成、推理策略、上下文管理、工具調用能力,甚至IDE本身的特性,都會讓結果發生明顯波動。也許換個任務,GPT5表現會更好,也許換個IDE,同一模型就會跑出不一樣的分數。但畢竟,這是GPT5。曾經有人調侃,本輪大模型的估值與泡沫,全靠OpenAI一肩扛著,如今這個重擔似乎可以稍稍卸下。
在AI Coding領域,排行榜從來只是一個切片,真正決定生產力的,是模型在真實開發環境中的穩定性、可維護性、與工具鏈的適配程度,以及產品能否在復雜的應用場景里,依然交出可用且可靠的代碼。
![]()
點個愛心,再走 吧





京公網安備 11011402013531號