![]()
編輯|澤南
周五凌晨,OpenAI 發布 GPT-5.2-Codex,這是迄今為止最先進的智能體編碼模型,專為復雜的實際軟件工程而設計。
![]()
GPT-5.2-Codex 是 GPT-5.2 的升級版本,提高了指令遵循能力、對長遠語境的理解能力,它針對 Codex 中的智能體編碼進行了進一步優化,包括通過上下文壓縮改進長期工作。GPT-5.2-Codex 在重構和遷移等大型代碼變更中表現更佳,在 Windows 環境下性能更優,同時網絡安全能力也顯著增強。
與 GPT-5.2 相比,5.2-Codex 在編碼任務的詞元效率方面也有顯著提升,尤其是在中等和高推理水平下。據稱,它已迅速成為 Codex 團隊成員的日常主力工具。
新模型的發布獲得了人們的普遍關注。在開發者社區人們認為,如果說 Claude Code 擅長「原始代碼」,那么 Codex/GPT5.x 在仔細、系統地查找「問題」(無論是代碼問題還是數學問題)方面則是無可匹敵的。
雖然新版本的 GPT 模型需要運行更長時間,但是它的智能程度令人驚訝。新模型終于具備了推動優秀設計的空間推理能力。

GPT-5.2-Codex 生成的內容。
已經有很多人開始認同使用 Claude Code 寫代碼,同時用 Codex 來做代碼審查,讓后者分析流程和發現細微 bug 的工作方式。此外也有人表示 Codex 能帶來的一個意想不到的幫助是克服拖延癥:如果面對一項艱巨的任務,卻不知從何下手,這時不妨把任務發給 Codex,它或許無法給出完美的答案,但幾乎總能提供一個不錯的起點,讓你快速迭代改進。
隨著模型能力的不斷進步,研究人員觀察到這些提升正轉化為網絡安全等專業領域能力的突破。就在上周,一位使用 GPT-5.1-Codex-Max 和 Codex CLI 的安全研究人員發現并負責任地披露了 React 中存在一個可能導致源代碼泄露的漏洞。
GPT-5.2-Codex 的網絡安全能力比 OpenAI 迄今為止發布的任何模型都更強大。這些進步有助于大規模加強網絡安全,但也帶來了新的兩用風險,需要謹慎部署。雖然 GPT-5.2-Codex 在 OpenAI 內部的「準備框架」中尚未達到「高」網絡安全能力級別,但在設計部署方案時已考慮到了未來能力的提升。
GPT-5.2-Codex 已面向付費 ChatGPT 用戶在所有 Codex 平臺上開放,OpenAI 計劃在未來幾周內向 API 用戶開放 GPT-5.2-Codex 的訪問權限。與此同時,OpenAI 正在試點僅限受邀用戶訪問即將推出的功能,并為經過審核的專業人士和專注于防御性網絡安全工作的組織提供更寬松的訪問權限模式。
OpenAI 介紹說,GPT-5.2-Codex 融合了 GPT-5.2 在專業知識處理方面的優勢以及 GPT-5.1-Codex-Max 在智能體編碼和終端使用方面的前沿能力。GPT-5.2-Codex 在長上下文理解、可靠的工具調用、事實準確性和原生壓縮方面表現更佳,使其成為長時間編碼任務更可靠的伙伴,同時保持了推理的詞元效率。
GPT-5.2-Codex 在 SWE-Bench Pro 和 Terminal-Bench 2.0 基準測試中取得了最先進的性能(SOTA),這兩個基準測試旨在評估智能體程序在真實終端環境下執行各種任務的性能。此外,它在原生 Windows 環境下的智能體程序編碼方面也更加高效可靠,并在此基礎上進一步增強了 GPT-5.1-Codex-Max 所引入的功能。
經過這些改進,Codex 能夠更高效地處理大型代碼庫,即使在長時間會話中也能保持完整的上下文信息。它能夠更可靠地完成復雜的任務,例如大型重構、代碼遷移和功能構建 —— 即使計劃有變或嘗試失敗,也能持續迭代而不丟失進度。
![]()
在 SWE-Bench Pro 中,模型會被賦予一個代碼庫,要求 AI 生成一個補丁來解決一個實際的軟件工程任務。Terminal -Bench 2.0 是一個用于在真實終端環境中測試 AI 智能體的基準測試工具。任務包括編譯代碼、訓練模型和搭建服務器。
更強大的視覺性能使 GPT-5.2-Codex 能夠更準確地解釋編碼過程中共享的屏幕截圖、技術圖表、圖表和 UI 界面。
Codex 可以快速將設計稿轉化為功能原型,開發者可以與 Codex 配合使用這些原型進行生產。
設計原型:
![]()
由 GPT-5.2-Codex 生成的原型:
![]()
在繪制核心網絡安全評估指標的長期性能圖表時,OpenAI 發現,從 GPT-5-Codex 開始,能力出現了顯著提升;GPT-5.1-Codex-Max 又實現了大幅提升;而 GPT-5.2-Codex 則帶來了第三次飛躍。OpenAI 預計,即將推出的 AI 模型將繼續保持這一發展趨勢。
為此,OpenAI 正在按照每個新模型都能達到「高」網絡安全能力水平的標準進行規劃和評估,該能力水平由準備框架進行衡量。
![]()
專業奪旗賽 (CTF) 評估衡量模型在 Linux 環境下解決高級、多步驟真實世界挑戰(需要專業級網絡安全技能)的頻率。
現代社會依賴軟件運行,而其可靠性取決于強大的網絡安全 —— 保障銀行、醫療、通信和基本服務等關鍵系統的在線運行,保護敏感數據,并確保人們可以信賴他們每天使用的軟件。漏洞可能在人們意識到之前就已存在,而發現、驗證和修復這些漏洞通常需要一支由工程師和獨立安全研究人員組成的團隊,他們必須配備合適的工具。
2025 年 12 月 11 日,React 團隊公布了三個影響使用 React 服務器組件構建的應用程序的安全漏洞。此次披露之所以引人注目,不僅在于漏洞本身,還在于漏洞的發現方式。
Privy(Stripe 旗下公司)的首席安全工程師 Andrew MacPherson 使用 GPT-5.1-Codex-Max、Codex CLI 和其他編碼代理來重現和研究前一周披露的另一個嚴重的 React 漏洞,即 React2Shell。他的目標是評估該模型在多大程度上能夠幫助進行現實世界的脆弱性研究。
他最初嘗試了幾次零樣本分析,讓模型檢查補丁并識別其修復的漏洞。當這種方法沒有結果時,他轉而采用更大容量的迭代式提示方法。當這些方法仍然失敗后,他指導 Codex 完成了標準的防御安全工作流程 —— 搭建本地測試環境、分析潛在的攻擊面,并使用模糊測試向系統發送畸形輸入進行探測。在嘗試重現最初的 React2Shell 問題時,Codex 發現了一些意料之外的行為,需要進行更深入的調查。在短短一周內,這一過程發現了之前未知的漏洞,并已將其披露給 React 團隊。
![]()
這表明,先進的人工智能系統能夠顯著加快實際軟件的防御安全工作。與此同時,幫助防御者更快行動的能力也可能被不法分子濫用。
隨著智能體系統在網絡安全相關任務中的能力不斷增強,OpenAI 正在把負責任的部署作為一項核心優先事項 —— 將能力的每一次提升與更強大的安全措施、更嚴格的訪問控制以及與安全社區的持續合作相結合。
參考內容:
https://openai.com/index/introducing-gpt-5-2-codex/





京公網安備 11011402013531號