環球網
11月20日消息,據VentureBeat報道,OpenAI昨日正式發布新一代智能體編程模型GPT-5.1-Codex-Max,該模型在長遠推理、工作效率及實時交互能力上實現顯著提升,將取代GPT-5.1-Codex成為Codex集成界面的默認模型,為全球開發者帶來更高效的編程輔助體驗。
![]()
作為OpenAI在編程模型領域的重要升級產品,GPT-5.1-Codex-Max在多項關鍵編程基準測試中表現亮眼。在衡量實際軟件問題解決能力的SWE-Bench Verified測試中,其準確率達到77.9%,小幅領先于谷歌Gemini 3 Pro的76.2%;在Terminal-Bench 2.0測試中,以58.1%的準確率優于Gemini 3 Pro的54.2%;而在競爭激烈的LiveCodeBench Pro編碼Elo基準測試中,該模型與Gemini 3 Pro的2439分持平,展現出強勁的綜合性能。
此次模型升級的核心亮點是引入“壓縮”(Compaction)機制。這一創新架構允許模型在接近上下文窗口限制時,智能保留關鍵信息并丟棄無關細節,實現了跨越數百萬token的連續工作而不降低性能。依托該機制,模型在內部測試中成功完成了持續超過24小時的復雜任務,包括多步驟代碼重構和自主調試,同時token效率提升約30%,有效降低了開發成本與響應延遲。
目前,GPT-5.1-Codex-Max已集成到OpenAI旗下多個Codex開發環境,涵蓋官方命令行工具(Codex CLI)、內部代碼審查工具及各類交互式編程環境。開發者可通過這些工具體驗強化學習訓練可視化、光學定律模擬等實時交互功能。該模型暫未通過公共API開放,官方表示后續將逐步推進,普通用戶需訂閱ChatGPT Plus、Pro或企業版等付費計劃使用。
據OpenAI透露,其內部95%的工程師每周都會使用Codex系列工具,自采用以來,工程師平均拉取請求(Pull Requests)提交量提升約70%,開發效率顯著提高。針對模型的自主性應用,OpenAI明確強調其定位為編碼“助手”而非人類替代品。為保障開發安全與透明度,模型會生成詳細的終端日志和測試引用,方便開發者審查驗證代碼,且默認運行于嚴格的沙盒環境,禁用網絡訪問以防范安全風險。(純鈞)





京公網安備 11011402013531號