亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

GPT-5費盡心機“作弊”,只為超過心魔Claude

IP屬地 中國·北京 編輯:任飛揚 硅星人 時間:2025-08-17 10:04:49


作者 | 董道力
郵箱 | dongdaoli@pingwest.com

GPT5終于發布了,但相比GPT3.5、sora等,并沒有給人們帶來震撼的感覺。往好了說,OpenAI放棄了傳奇期貨王的身份,聚焦大模型的落地與應用。這其實也解釋了為何在發布會上,OpenAI特別強調GPT-5 在編程方面的能力:畢竟今年沒有比AI Coding更落地的AI方向了。一眾AI IDE工具也第一時間接入了GPT5,這放在以前沒2個月誰能用到。



然而,有媒體披露OpenAI在編程能力測試中“作弊”。具體來說,在SWE?Bench Verified這項編程測試里,OpenAI并不是真的跑了全部500道題,只測試了477個。而claude、谷歌等模型在測試模型編程能力時,是跑滿500到題目的。

此外,更吊詭的是,SWE?Bench Verified是OpenAI推出來的一個“精煉版”。因為原本的 SWE?Bench有2294個軟件工程問題,OpenAI覺得這些題目中有些太難、太不穩定,無法公平評估模型的編程能力,于是OpenAI自己選了500道題,讓評測更靠譜 。結果更離譜的是這個“自己選的子集”,又被砍掉一部分,剩下477道題跑評測。

OpenAI官網發表了一個博文解釋并介紹為什么要推出SWE?Bench Verified:https://openai.com/index/introducing-swe-bench-verified/

有網友吐槽:OpenAI這是在怕什么?



為了搞清楚SWE?Bench Verified是什么,測試了哪些能力,我們特地從OpenAI官網下載了題目、注釋和評分標準,實際演練一番。

我們在OpenAI官網提供的渠道下載了SWE?Bench Verified的題目、注釋和評分標準。


SWE?Bench Verified是一套面向真實世界軟件工程問題的高質量評測數據,旨在衡量代碼修復與理解能力。該數據集包含500個經過驗證的測試樣本,每個樣本均附帶代碼倉庫信息、問題描述、修復補丁、測試補丁以及難度標簽等關鍵信息。

題目難度上主要依據“完成時間”進行區分,比如15分鐘內完成的就比較簡單,難點點任務可能會用時超過4小時。目前SWE?Bench Verified中有38.8%的任務可在15分鐘內完成,52.2%需要15分鐘至1小時,8.4%的任務耗時在1至4小時之間,僅有0.6%的任務超過4小時。

測試中的樣本來源覆蓋多個知名開源項目,包含django/django、sympy/sympy、sphinx-doc/sphinx、pandas/pandas、scikit-learn/scikit-learn、matplotlib/matplotlib、pytorch/pytorch、numpy/numpy、requests/requests等。

每個項目會測試大模型各個方面的代碼能力。比如django/django:作為占比最高的項目,主要測試開發者對大型Web框架的理解能力,特別是在數據庫查詢優化、URL路由、中間件處理等方面。pandas/pandas:數據分析領域的代表,測試對數據結構和數據處理算法的掌握程度,特別是在處理大規模數據和復雜數據轉換方面。


我們讓GPT5挑選了10個有代表性的項目,內容涉及大模型的多種能力。

1. Django/Django - Web框架之王

GitHub: https://github.com/django/django

問題: 優化 .delete() 方法,僅使用必需字段

測試重點: 數據庫查詢優化與性能測試

意義: Django是最流行的Python Web框架,這個問題涉及ORM性能優化,測試數據庫操作效率

2. SymPy/SymPy - 符號數學計算

GitHub: https://github.com/sympy/sympy

問題: 距離計算錯誤(3D坐標被忽略)

測試重點: 數值計算精度與邊界條件測試

意義: SymPy是Python符號數學庫,測試數學計算的準確性和邊界情況處理

3. Sphinx-doc/Sphinx - 文檔生成工具

GitHub: https://github.com/sphinx-doc/sphinx

問題: 繼承圖表SVG格式下的404鏈接問題

測試重點: 文檔生成與鏈接完整性測試

意義: Sphinx是Python文檔生成標準工具,測試文檔渲染和鏈接的正確性

4. Matplotlib/Matplotlib - 數據可視化

GitHub: https://github.com/matplotlib/matplotlib

問題: 對數坐標軸反轉功能失效

測試重點: 圖形渲染與坐標系統測試

意義: Matplotlib是Python繪圖庫標桿,測試復雜圖形系統的坐標變換

5. Scikit-learn/Scikit-learn - 機器學習

GitHub: https://github.com/scikit-learn/scikit-learn

問題: RidgeClassifierCV的store_cv_values參數問題

測試重點: 機器學習參數驗證測試

意義: Scikit-learn是最重要的ML庫,測試算法參數處理和交叉驗證

6. Astropy/Astropy - 天體物理學

GitHub: https://github.com/astropy/astropy

問題: 嵌套復合模型的可分離性矩陣計算錯誤

測試重點: 復雜模型組合與數學計算測試

意義: Astropy專門用于天文學計算,測試復雜數學模型的組合邏輯

7. Pydata/Xarray - 多維數據分析

GitHub: https://github.com/pydata/xarray

問題: Variable.__setitem__對帶values屬性對象的類型強制轉換

測試重點: 多維數據類型處理測試

意義: Xarray處理多維標記數組,測試數據類型轉換和屬性訪問

8. Pytest-dev/Pytest - 測試框架

GitHub: https://github.com/pytest-dev/pytest

問題: 收集補丁數組的測試時出現ValueError

測試重點: 測試框架自身功能測試

意義: Pytest是Python標準測試框架,測試測試工具本身的穩定性

9. Pylint-dev/Pylint - 代碼質量檢查

GitHub: https://github.com/pylint-dev/pylint

問題: verbose選項的短參數需要參數值

測試重點: 命令行工具接口測試

意義: Pylint是代碼質量檢查工具,測試命令行參數解析和用戶界面

10. PSF/Requests - HTTP庫

GitHub: https://github.com/psf/requests

問題: 二進制負載請求因調用to_native_string失敗

測試重點: HTTP協議與二進制數據測試

意義: Requests是最流行的HTTP庫,測試網絡通信和數據編碼處理

至于OpenAI為什么要刪除23道測試題而不是用完整版,答案也許就在下面的排名中。在SWE?Bench Verified完整版,也就是500道題目的基準下,GPT5并沒有超越claude 4 Opus。


然而,反轉又來了,上述測試是基于bash only,也就是完全依賴大模型本身的能力。現實情況下,用戶通常會使用AI IDE來配合大模型使用,像cursor、codebuddy、trae等。問題也就隨之而來,AI IDE提供的模型中,“最好”的claude 4 opus很貴,tokens很容易用完,換句話說,目前GPT5可能是最具性價比、可用性最強的編程模型?


1

實測環節

當然,評分只能代表模型性能,我們還得具體上手試試。

我們在Codebuddy的環境下,用GPT5做了一個SWE?Bench Verified數據庫查詢器(已經提供OpenAI官網下載的注釋、評分標準,以及基于huggingface的數據庫)。

prompts:制作一款SWE?Bench Verified數據庫查詢器,功能是可以輕松查詢SWE?Bench Verified有哪些問題,以及問題的鏈接,以及評分標準。

GPT5生成過程比較順利,沒有出現不可逆的bug。第一版本只顯示了11個項目,一輪交流后也補全了500個。


GPT5制作的版本預覽:http://4d916460ea034a90bd4e0c1dd25efc6b.ap-singapore.myide.io

隨后,用相同的prompts用claude-4-sonnet進行生成,非常明顯的感受是,claude-4-sonnet的一次成功率不如GPT5,比如常見的網頁不顯示問題,與claude進行了多輪交互才得以解決。


claude-4-sonnet制作的版本預覽:http://7561fbea40ff4069a3c2c8ae367cd7ea.ap-singapore.myide.io

在UI層面,由于兩者都采用了MUI框架,視覺風格上差異不大。但在細節打磨上,claude-4-sonnet生成的網頁明顯更勝一籌——響應式布局更加出色,在不同屏幕尺寸下都能保持優雅呈現。外鏈信息的組織也更合理,例如項目的issue與詳情分布清晰,而GPT5生成的頁面不僅“暴露”了數據庫來源(HuggingFace),內容排列邏輯也略顯混亂。

功能方面,GPT5在篩選功能上表現突出,倉庫標簽數量完整(10個),優于Claude-4-sonnet的8個。但從交互體驗來看,claude-4-sonnet的篩選操作更加直觀易用,并針對移動端提供了專用的篩選入口,減少了操作步驟。

為了更客觀,我們還引入Gemini 2.5 Pro對兩個項目進行評分。結果顯示claude-4-sonnet生成的項目在幾乎所有關鍵維度上都優于GPT5。前者以模塊化架構為核心,將組件按功能分區,并通過自定義Hooks實現數據與視圖的分離,可維護性和可讀性更佳;后者則采用扁平化組件結構,數據邏輯與UI高度耦合,更像一個原型驗證型應用。

在整體功能體驗上,claude-4-sonnet不僅集成了搜索、視圖切換、響應式布局等能力,還通過側邊欄詳情、移動端專用篩選等現代交互模式縮短了操作路徑,而GPT5則依賴傳統的頁面跳轉方式,操作鏈路更長。總體來看,claude-4-sonnet在代碼質量、功能深度和用戶體驗上都體現出更成熟的軟件工程思路和更廣的應用場景覆蓋,而GPT5的優勢主要集中在特定功能的完整性和實現速度上。


看完Gemini的評價,好像能理解為什么OpenAI要少做23道題目了。

回到測試,事實上會影響大模型能力的變量太多——數據集構成、推理策略、上下文管理、工具調用能力,甚至IDE本身的特性,都會讓結果發生明顯波動。也許換個任務,GPT5表現會更好,也許換個IDE,同一模型就會跑出不一樣的分數。但畢竟,這是GPT5。曾經有人調侃,本輪大模型的估值與泡沫,全靠OpenAI一肩扛著,如今這個重擔似乎可以稍稍卸下。

在AI Coding領域,排行榜從來只是一個切片,真正決定生產力的,是模型在真實開發環境中的穩定性、可維護性、與工具鏈的適配程度,以及產品能否在復雜的應用場景里,依然交出可用且可靠的代碼。


點個愛心,再走 吧

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

亚洲乱妇老熟女爽到高潮的片| 精品日本一区二区三区| 亚洲一级黄色录像| 欧美日韩国产精品一区| 精品国产一区二区三区麻豆小说| 午夜精品三级久久久有码| 欧美视频第一页| 97av中文字幕| 国产麻豆精品95视频| 久青草国产97香蕉在线视频| 亚洲国产日韩在线一区| 国产成人亚洲综合a∨婷婷图片| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 日本午夜精品视频在线观看| 一个色综合导航| 最近日本中文字幕| 精品国产成人av| 亚洲一区免费网站| 一区二区视频播放| 国产亚洲a∨片在线观看| 国产精品成人无码专区| 欧美国产一区二区| 精品日本一区二区| 欧美特黄一级视频| 欧美黑人性猛交| 欧美成人777| 欧美一区永久视频免费观看| 日韩欧美xxxx| av亚洲精华国产精华精| 国产欧美一区二区三区久久| 国产高清中文字幕| 欧美成人激情免费网| 亚洲欧美自偷自拍另类| 91年精品国产| 欧美日韩综合网| 国产一区二区在线影院| 91九色蝌蚪国产| 91福利免费视频| 国产综合在线看| 伊人中文字幕在线观看| 久久天天躁狠狠躁夜夜躁2014| 乐播av一区二区三区| 欧美男女性生活在线直播观看| 日日夜夜精品视频免费观看| 精品久久久一区二区| www欧美激情| 疯狂欧美牲乱大交777| 亚洲一区二区三区四区五区xx| 亚洲欧美日韩国产综合在线 | 亚洲女同一区二区| 日本熟妇人妻中出| 午夜精品久久久久| 肉色超薄丝袜脚交| 亚洲大片精品永久免费| 五月天激情视频在线观看| 污片在线观看一区二区| 日韩av综合在线观看| 国产亚洲欧美中文| 老太脱裤子让老头玩xxxxx| 成人免费视频在线观看| 国产婷婷一区二区三区| 一区二区三区在线视频播放| 黄www在线观看| 精品福利在线看| 久热精品在线观看视频| 欧美性极品少妇| 亚洲人成人无码网www国产| 日韩一级视频免费观看在线| 中国一级特黄录像播放 | 亚洲激情电影中文字幕| 黄色a级片在线观看| www.欧美三级电影.com| 亚洲视频在线观看一区二区| 国产精品激情av电影在线观看 | 亚洲一二三在线| 日韩电影在线观看一区二区| 伦理中文字幕亚洲| av加勒比在线| 国产偷国产偷亚洲高清97cao| 成a人片国产精品| 一级黄色免费在线观看| 亚洲综合自拍偷拍| 亚洲中文字幕无码专区| 亚洲欧美激情一区二区| 夜夜爽久久精品91| 亚洲激情视频在线播放| 在线看的片片片免费| 综合网中文字幕| 天堂网一区二区| 国产精品永久在线| 日韩在线一二三区| 亚洲精品一品区二品区三品区 | 久久国产精品免费视频 | 色婷婷777777仙踪林| 国产精品私人自拍| 性xxxxxxxxx| 欧美日韩在线播放三区| 日韩av网站在线播放| 色综合久久久久久中文网| 日本高清视频免费看| 日本一区美女| 亚洲一区二区三区小说| 91网站免费视频| 欧美人与物videos| 奇米777欧美一区二区| 一级日韩一区在线观看| 色综合久久天天综合网| 美女视频久久久| 国产精品久久久久久久一区探花| 成人晚上爱看视频| 国内国产精品天干天干| 色诱女教师一区二区三区| 不卡大黄网站免费看| 国产尤物av一区二区三区| 在线观看精品一区| 爱爱的免费视频| 亚洲精选一区二区| 日韩欧美在线观看免费| 国产亚洲福利社区| 91老师片黄在线观看| 毛葺葺老太做受视频| 精品免费99久久| 97人妻一区二区精品视频| 91中文在线观看| 久久理论电影网| 欧美三根一起进三p| 精品国产精品三级精品av网址| 国产精品成人v| 久久综合九色欧美综合狠狠| 九九热视频免费| 亚洲色图综合久久| 国产77777| 亚洲成人自拍| 色婷婷一区二区| 国产精品第56页| 亚洲自拍偷拍视频| 久久精品人人做| 中文视频在线观看| 97在线免费观看| 久久免费偷拍视频| 国产男女猛烈无遮挡a片漫画| 深夜福利国产精品| 久久国产精品99久久久久久老狼| 国产无限制自拍| 精品国产乱子伦一区| www.我爱av| 久久精品无码中文字幕| 亚洲成色www8888| 空姐吹箫视频大全| 欧美性xxxx69| 欧美日韩国产经典色站一区二区三区| aaaaaa毛片| 精品免费久久久久久久| 亚洲片在线资源| 国产美女在线精品| 色噜噜日韩精品欧美一区二区| 国产精品自拍偷拍| 欧美激情一区二区三区蜜桃视频| 亚洲午夜久久久久久久久红桃| 国产成人在线精品| 国产精品女人毛片| 性色av无码久久一区二区三区| 国产成人精品影院| 国产chinesehd精品露脸| 久久免费福利视频| 欧美国产精品一区| 国产一级一级片| 亚洲国产一区二区三区在线播 | 久久久久久久波多野高潮日日| 岛国毛片在线播放| 97在线视频观看| 国产欧美日韩另类视频免费观看| 国内偷拍精品视频| 日韩高清dvd| 亚洲欧美自拍一区| 成人h动漫精品一区二区 | 欧美国产日韩在线观看成人| 日韩精品欧美在线| 久久久久亚洲蜜桃| 成年人深夜视频| 精品在线观看国产| 国产精品一区二区果冻传媒| 亚洲午夜福利在线观看| 国产精品久久久对白| 日韩一区二区三区高清免费看看| 蜜臀av亚洲一区中文字幕| 天堂网av2014| 女人床在线观看| 久久精品人人爽| 自拍偷拍欧美精品| 一级做a爰片久久毛片16| 天天碰免费视频| 成人福利视频网| 欧美顶级少妇做爰| 美女免费视频一区二区| 中文字幕av网址| 国产精品视频在线免费观看 | 成人免费在线看片| 色狠狠综合天天综合综合| 日韩极品在线观看| av永久免费观看| 欧美爱爱视频网站| 美女精品视频一区| 亚洲va欧美va人人爽午夜 | 日韩高清欧美激情| 国产大屁股喷水视频在线观看| 欧美一级特黄aaaaaa在线看片| 日韩色av导航| 欧美日韩免费网站| 日本aⅴ免费视频一区二区三区| 欧美另类z0zx974| 强伦女教师2:伦理在线观看| 久久这里有精品视频| 午夜精品久久久久久久久| 天天干天天舔天天射| 美国一级黄色录像| 国产午夜福利在线播放| 91久久精品国产| 一区二区三区视频观看| 精品国产乱码久久久久酒店| 精品一区二区三区蜜桃| 九九在线观看视频| 国产福利影院在线观看| 国产亚洲自拍偷拍| 欧美成人午夜剧场免费观看| 欧美丝袜丝交足nylons| 久久综合久久综合亚洲| 精品国精品国产自在久不卡| 久久国产高清视频| 亚洲欧美激情网| 亚洲欧洲精品一区二区| 国产成人亚洲综合91| 精品视频在线导航| 亚洲一区二区三区影院| 久久精品99久久久| 涩涩视频在线观看| 摸摸摸bbb毛毛毛片| 国产在线青青草| 国产一区二区视频在线免费观看| 欧美激情图片区| 精品电影一区二区| 精品福利一区二区| 9久草视频在线视频精品| 中文字幕网址在线| 操她视频在线观看| 欧美熟妇另类久久久久久多毛| 蜜桃视频成人在线观看| 国产91aaa| 国产a级全部精品| 色诱女教师一区二区三区| 日韩精品一区二| 岛国av一区二区| 99riav久久精品riav| 国产91麻豆视频| 国产无码精品在线观看| 国产人妻黑人一区二区三区| av免费在线播放网站| 宅男一区二区三区| 国产成人免费观看| 国产精品毛片a∨一区二区三区|国| 久久亚洲综合国产精品99麻豆精品福利| 欧美在线不卡视频| 亚洲免费色视频| 久久精品一区二区三区不卡牛牛 | www.夜夜爱| 日韩精品国内| 91网站免费看| 日本久久亚洲电影| 欧美成人第一页| 亚洲性69xxxbbb| 91精品免费在线观看| 色综合久久中文综合久久牛| 伊人色综合久久天天| 欧美国产乱子伦| www.av亚洲| 国产精品18久久久久久vr| 日韩中文字幕av电影| 国产熟女精品视频| 中文字幕免费观看视频| tube国产麻豆| 久草福利资源在线观看| 国产人妻精品一区二区三区不卡| 五月激情四射婷婷| 久久久久无码精品国产sm果冻| 国产xxxxxxxxx| 催眠调教后宫乱淫校园| 伊人成人222| 亚洲少妇第一页| 久久免费视频3| 精品一卡二卡三卡| 日本新janpanese乱熟| 免费无码av片在线观看| 亚洲 欧美 综合 另类 中字| 国产欧美自拍视频| 91成人综合网| 国产精彩视频一区二区| 日韩黄色片在线| 精品一区二区三区毛片| 久久成人福利视频| 97在线免费公开视频| 一区二区三区韩国| 能看的毛片网站| 黄色手机在线视频| 日韩和欧美的一区二区| 国语自产在线不卡| 91精品国产高清久久久久久91| 97av在线视频| 国产区亚洲区欧美区| 91精品黄色| 久草精品电影| 亚洲高清视频在线观看| 一区二区三区我不卡| 日本三级福利片| av无码久久久久久不卡网站| 亚洲成人福利在线| 艳妇乳肉豪妇荡乳xxx| 亚洲午夜福利在线观看| 国产精品无码午夜福利| 黄色激情小视频| 国产午夜小视频| 国产剧情精品在线| 亚洲欧美日本在线观看| 丰满放荡岳乱妇91ww| 国产精品久久精品日日| 午夜a成v人精品| 欧美美女一区二区三区| 亚洲国产成人精品久久久国产成人一区| 日韩精品一区二区视频| 久久免费视频这里只有精品| 成人在线看片| 免费看欧美黑人毛片| av之家在线观看| xxxx一级片| 香蕉网在线播放| 日韩av综合在线| 可以免费观看的毛片| 不卡一区二区中文字幕| 亚洲视频免费观看| 9191成人精品久久| 美女福利精品视频| 国产精品69精品一区二区三区| 国产精品9999久久久久仙踪林| 国产日产欧美一区二区| 一道本在线免费视频| 潮喷失禁大喷水aⅴ无码| 国产精品男女视频| 欧美熟妇交换久久久久久分类| 国产精品18久久久久久久网站| 亚洲精品精品亚洲| 精品国产一区二区三区久久久蜜月| 欧美日韩福利视频| 国产精品日韩高清| 国产人妻777人伦精品hd| zjzjzjzjzj亚洲女人| 日本熟妇毛耸耸xxxxxx| 日本大胆欧美人术艺术动态| 国产精品丝袜一区| 日韩女优av电影| 欧美亚洲国产另类| 五月婷婷综合色| 亚洲免费成人在线视频| 久久婷婷五月综合| 国产成人精品a视频| 91女人视频在线观看| 欧美日韩国产另类不卡| 久久在线免费观看视频| 99国产精品久久久久老师| 日韩人妻精品无码一区二区三区| av鲁丝一区鲁丝二区鲁丝三区| 一级黄色免费看| 国产日韩欧美综合一区| 亚洲国产精品系列| 国产成人一区二| 久久久久久免费看| 黄色片在线观看免费| 污污网站在线免费观看| 中文字幕亚洲精品在线观看| 91精品国产91久久综合桃花| 欧美综合第一页| 一二三四中文字幕| 国产人妻一区二区| 成人爽a毛片一区二区| 亚洲国产日韩在线一区模特| 中文字幕不卡av| 久久久久久亚洲精品不卡4k岛国| 999这里有精品| 成人午夜精品视频| 久久久久久久免费视频了| 日韩精品视频在线观看免费| 51国偷自产一区二区三区| 欧美黑人又粗又大又爽免费| 黄色在线视频网址| www久久久久| 亚洲图中文字幕| 亚洲一区二区精品在线| www亚洲色图| 日本在线播放一区二区三区| 日韩欧美国产激情| 日韩美女激情视频| 欧美a级免费视频| 久久视频免费看| av网站免费线看精品| 日韩精品视频在线观看网址| 日韩精品无码一区二区三区| 亚洲欧洲综合网| 99国产精品久久久久久久久久| 亚洲美腿欧美激情另类| 日本免费高清一区| 特一级黄色录像| 久久精品在线免费观看|