OpenAI 推出 GPT-5.1-Codex-Max 編程模型：可 “通宵” 處理任務，性能跑分超越谷歌

IP屬地中國·北京 環球網資訊 時間：2025-11-20 14:14:34

環球網
11月20日消息，據VentureBeat報道，OpenAI昨日正式發布新一代智能體編程模型GPT-5.1-Codex-Max，該模型在長遠推理、工作效率及實時交互能力上實現顯著提升，將取代GPT-5.1-Codex成為Codex集成界面的默認模型，為全球開發者帶來更高效的編程輔助體驗。

作為OpenAI在編程模型領域的重要升級產品，GPT-5.1-Codex-Max在多項關鍵編程基準測試中表現亮眼。在衡量實際軟件問題解決能力的SWE-Bench Verified測試中，其準確率達到77.9%，小幅領先于谷歌Gemini 3 Pro的76.2%；在Terminal-Bench 2.0測試中，以58.1%的準確率優于Gemini 3 Pro的54.2%；而在競爭激烈的LiveCodeBench Pro編碼Elo基準測試中，該模型與Gemini 3 Pro的2439分持平，展現出強勁的綜合性能。
此次模型升級的核心亮點是引入“壓縮”（Compaction）機制。這一創新架構允許模型在接近上下文窗口限制時，智能保留關鍵信息并丟棄無關細節，實現了跨越數百萬token的連續工作而不降低性能。依托該機制，模型在內部測試中成功完成了持續超過24小時的復雜任務，包括多步驟代碼重構和自主調試，同時token效率提升約30%，有效降低了開發成本與響應延遲。
目前，GPT-5.1-Codex-Max已集成到OpenAI旗下多個Codex開發環境，涵蓋官方命令行工具（Codex CLI）、內部代碼審查工具及各類交互式編程環境。開發者可通過這些工具體驗強化學習訓練可視化、光學定律模擬等實時交互功能。該模型暫未通過公共API開放，官方表示后續將逐步推進，普通用戶需訂閱ChatGPT Plus、Pro或企業版等付費計劃使用。
據OpenAI透露，其內部95%的工程師每周都會使用Codex系列工具，自采用以來，工程師平均拉取請求（Pull Requests）提交量提升約70%，開發效率顯著提高。針對模型的自主性應用，OpenAI明確強調其定位為編碼“助手”而非人類替代品。為保障開發安全與透明度，模型會生成詳細的終端日志和測試引用，方便開發者審查驗證代碼，且默認運行于嚴格的沙盒環境，禁用網絡訪問以防范安全風險。（純鈞）

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

安卓上線“擴展深色主題”設置，專治堅守淺色UI的“不聽話”App

國產GPU四小龍IPO齊活！最后一個剛剛公布

全站最新

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

熱門推薦

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

安卓上線“擴展深色主題”設置，專治堅守淺色UI的“不聽話”App

國產GPU四小龍IPO齊活！最后一個剛剛公布

蚌埠滕湖機場完成驗證試飛！

中國新礦物團隊再添一員！“金秀礦”正式命名背后有多難？｜封面專訪

羅永浩吐槽后，上海電信：WIFI速率不達標原因很多

李禮輝：必須加快制度創新，確定金融智能體的法律地位

TikTok美國迎“大結局”：持股19.9%合資方案對TikTok意味著什么？

紫光國微：在商業航天領域，公司的FPGA等系列產品正陸續導入

上海電信回應“WIFI速率不達標”

TikTok內部信“泄密”：被反復討論的“美國協議”，到底發生了什么？

我國科學家實現新一代光計算芯片研究新突破