太狠了！奧特曼親手「干掉」GPT-5.2，OpenAI祭出最強編程AI

IP屬地中國·北京 新智元 時間：2025-12-19 12:23:59

新智元報道
編輯：桃子好困
最強AI智能體編程模型GPT-5.2-Codex登場！上下文壓縮，長程任務處理更強，而且還懂網絡安全。
GPT-5.2-Codex，深夜突襲！
它是OpenAI迄今為止，最強的AI智能體編程模型，專為復雜、真實世界軟件工程而打造。

從名字可以看出，GPT-5.2-Codex基于GPT-5.2進一步優化版本，它在多項能力上實現了關鍵改進：
· 上下文壓縮，提升了長周期任務處理能力
· 在大型代碼變更，如重構與遷移上性能更強
· 在原生Windows環境下，編程能力顯著增強
· 網絡安全能力最強
奧特曼宣稱，「OpenAI們」已經用上了，而且還取得了非常好的成效。

在基準測試中，GPT-5.2-Codex在軟件工程、終端測試中，擊敗了5.1-Codex-Max、GPT-5.2、GPT-5.1。

OpenAI博客中多次重點強調，GPT-5.2-Codex在網絡安全上，達到了迄今為止最高水平。
就在上周，一位安全研究員用GPT-5.1-Codex-Max+Codex CLI，直接挖出了一個導致源代碼泄露的React漏洞。

今天起，所有付費用戶皆可用上GPT-5.2-Codex，API將在未來幾周開放。
GPT-5.2-Codex編程狂飆，長跑不掉線
全新AI智能體編程GPT-5.2-Codex，簡單來說，就是一次「強強聯合」。
它不光繼承了GPT-5.2原本擅長的「專業工作處理能力」，還學到了5.1-Codex-Max在AI智能體編程和終端操作方面的能力。
這樣一來，它的進步就很實在了——
在長上下文理解、工具調用、事實準確性、原生上下文壓縮等方面，得到了顯著提升。
由此，GPT-5.2-Codex可以穩定支持長時間運行的編程任務，并在推理時更省token。
在業內專業基準測試中，5.2-Codex在SWE-Bench Pro和Terminal-Bench 2.0上刷新SOTA。
相較于5.1-Codex，約6%的性能提升。

這兩個測試，就是專門用于評估模型在真實終端環境中處理多樣化任務時的智能體能力。
同時，它在原生Windows環境中的智能體編程表現也顯著增強，進一步擴展了GPT-5.1-Codex-Max所引入的能力。
得益于這些改進，Codex能在大型代碼庫中長時間工作，并始終保持完整上下文。
這也就意味著，諸如大規模重構、代碼遷移和功能開發等復雜任務，GPT-5.2-Codex可以靠譜地完成。
——即便中途方案調整或嘗試失敗，也能持續迭代而不迷失方向。
不僅如此，GPT-5.2-Codex「視力」更強了。
編程時，直接發給它截圖、技術示意圖、圖表以及各類UI界面，它都能理解得更準。

更厲害的是，它可以直接讀取設計稿，并迅速將其轉化為可運行的功能原型。
同時，開發者也可以與Codex協作，將這些原型一點點打磨，直到能正式上線使用。
三大躍遷，AI已「攻破」真實世界
在OpenAI的一項核心網絡安全評估中，可以明顯看到「能力隨時間的躍遷」——
· GPT-5-Codex帶來了第一次顯著提升，
· GPT-5.1-Codex-Max帶來了第二次，
· GPT-5.2-Codex則實現了第三次躍遷。

對此，OpenAI判斷，未來的AI模型仍將沿著這一趨勢持續演進。
在做規劃和能力評估時，他們一直假設每一代模型，都有潛力達到「準備框架」（Preparedness framework）里，定義的「高」等級網絡安全能力。
不過，GPT-5.2-Codex目前還未達到這一水平。
那么，在真實世界中，OpenAI的智能體編程模型表現如何？
一周挖出React高危漏洞
12月11日，React團隊爆出了：React Server Components的三個安全漏洞。
然后，Stripe旗下公司Privy的首席安全工程師Andrew MacPherson，就決定拿這個漏洞來「測試」一下現在的AI模型到底有多能打。
他使用了GPT-5.1-Codex-Max+Codex CLI，以及其他編程智能體，意外的是，在復現和研究漏洞的過程中，把關鍵React漏洞挖出來了。

具體實操過程如下——
最初，他嘗試了多次零樣本學習分析，直接讓模型檢查補丁并判斷其修復的漏洞類型，但并未取得成果。
隨后，他轉向更高頻、迭代式的提示方式；在這些方法仍然無效后，他引導Codex按照標準的防御性安全流程開展工作——搭建本地測試環境、分析潛在攻擊面，并通過模糊測試向系統注入異常輸入。
在嘗試復現原始React2Shell問題的過程中，Codex發現了一些異常行為，值得深入調查。
最終，在短短一周內，這一流程促成了此前未知漏洞的發現，并被以負責任的方式披露給React團隊。
這一案例清楚地展示了，先進AI系統如何顯著加速真實世界、廣泛使用的軟件中的防御性安全研究。
網友實測
一位開發者實測GPT-5.2-Codex編寫一個模擬道路上車輛與交通燈工作方式的程序，結果失敗了。

不過也有人認為，其具備了與Gemini 3 Flash和Pro同樣精美的動畫效果。

GPT-5.2-Codex在生成一款反恐精英的游戲，表現亮眼。

總言之，OpenAI認為，GPT-5.2-Codex的發布，是AI在真實軟件開發與網絡安全領域的又一大步。
它讓開發者，能輕松應對復雜又耗時的任務，同時也為網絡安全研究提供更好的工具支持。
參考資料：
https://openai.com/index/introducing-gpt-5-2-codex/
https://openai.com/index/gpt-5-2-codex-system-card/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標，鎖定新智元極速推送！

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

80多年前，他們在重慶為全國戰時科研機構養小白鼠

全國首個高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項目投運

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設計

民聲現場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

4.98萬就能買機器人通用基座？一機三態，多場景驗證，配VLA大腦

煥新補貼成效顯現，11月江蘇新能源汽車零售額同比增長26.2%

全站最新

80多年前，他們在重慶為全國戰時科研機構養小白鼠

全國首個高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項目投運

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設計

民聲現場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

熱門推薦

珠海國資五年輸血45億未果，傅氏姐弟接盤“保殼”，*ST寶鷹5800萬押寶子公司能否續命？

百融云創發布RaaS戰略及“結果云”平臺定義AI硅基智能新范式

聯動科技：新產品QT-9800SoC測試系統已完成實驗室驗證用于測試系統級芯片（SoC）

80多年前，他們在重慶為全國戰時科研機構養小白鼠

優必選與天鵝到家簽署戰略合作協議

中科曙光與商湯科技、大曉機器人合作簽約

全國首個高海拔巖洞式算力艙智算中心——雅礱江兩河口算電融合示范項目投運

支付寶FluidMarkdown鴻蒙版開源，專為AI流式交互設計

民聲現場·市民講述：“無貨源”模式做跨境電商，竟是騙局！

4.98萬就能買機器人通用基座？一機三態，多場景驗證，配VLA大腦

煥新補貼成效顯現，11月江蘇新能源汽車零售額同比增長26.2%

高通雙架構戰略曝光：Oryon管當下，RISC-V賭未來

【特稿】求囤貨照片美國知名空頭質疑英偉達出貨數據

盯上你的眼，蘋果、谷歌也加入“百鏡混戰”

9系旗艦即將亮相上汽大眾ID. ERA序列點亮新時代國際電影節盛況