在發(fā)布GPT-5.2系列模型一周后,OpenAI再次出手,美東時間18日周四推出基于GPT-5.2的新一代Codex模型GPT-5.2-Codex,號稱最先進的智能體編碼模型,聚焦專業(yè)軟件工程和防御性網(wǎng)絡(luò)安全,進一步鞏固其在AI編程領(lǐng)域?qū)雀鐶emini的競爭優(yōu)勢。
OpenAI介紹,GPT-5.2-Codex在編碼性能、網(wǎng)絡(luò)安全能力和長周期任務(wù)處理上均實現(xiàn)突破。GPT-5.2-Codex在SWE-Bench Pro測試中準確率達到56.4%,在Terminal-Bench 2.0測試中達到64.0%,刷新兩項基準測試紀錄。該模型已于發(fā)布當天在所有Codex界面向付費ChatGPT用戶開放,API用戶接入正在推進中。
OpenAI特別強調(diào)GPT-5.2-Codex在網(wǎng)絡(luò)安全方面的顯著提升。CEO Sam Altman提到,本月早些時候,一名安全研究人員使用上一代模型GPT-5.1-Codex-Max就發(fā)現(xiàn)并負責任地披露了React中可能導致源代碼暴露的漏洞。OpenAI方面認為,新模型尚未達到"高"級別網(wǎng)絡(luò)安全能力,但公司正在為未來模型跨越這一門檻做準備。
OpenAI表示,GPT-5.2-Codex周四當天在所有Codex界面向付費ChatGPT用戶發(fā)布,正在努力在未來幾周內(nèi)安全地為API用戶啟用訪問。該司計劃通過逐步推出、部署與保護措施相結(jié)合以及與安全社區(qū)密切合作的方式,在最大化防御影響的同時降低濫用風險。
本周四的發(fā)布延續(xù)了OpenAI在AI編程領(lǐng)域的進攻態(tài)勢。
上周發(fā)布GPT-5.2時,OpenAI就援引編碼初創(chuàng)公司的用戶體驗稱,該模型擁有“最先進的智能體編碼性能”,還披露GPT-5.2的Thinking版本在SWE編碼能力測試中創(chuàng)下歷史最高分,成為OpenAI首個性能達到或超過人類專家水平的模型。此舉被視為對谷歌Gemini 3在編碼和推理能力上獲得好評的直接回應。
編碼性能再升級,針對大規(guī)模實戰(zhàn)場景優(yōu)化
GPT-5.2-Codex是GPT-5.2的優(yōu)化版本,專門針對Codex中的智能體編碼進行了強化。OpenAI表示,新模型在三個關(guān)鍵領(lǐng)域?qū)崿F(xiàn)改進:通過上下文壓縮提升長周期工作能力,在重構(gòu)和遷移等項目級任務(wù)上表現(xiàn)更強,以及在Windows環(huán)境中性能改善。
在基準測試中,GPT-5.2-Codex在SWE-Bench Pro測試中準確率達到56.4%,高于GPT-5.2的55.6%和GPT-5.1的50.8%。在Terminal-Bench 2.0測試中,GPT-5.2-Codex準確率為64.0%,GPT-5.2為62.2%,GPT-5.1為58.1%。SWE-Bench Pro要求模型在給定代碼庫中生成補丁以解決實際軟件工程任務(wù),Terminal-Bench 2.0則測試AI智能體在真實終端環(huán)境中完成編譯代碼、訓練模型和設(shè)置服務(wù)器等任務(wù)的能力。
![]()
GPT-5.2-Codex在長上下文理解、可靠的工具調(diào)用、改進的真實性和原生壓縮方面均有提升,使其成為長時間編碼任務(wù)中更可靠的合作伙伴,同時在推理過程中保持token效率。更強的視覺性能使GPT-5.2-Codex能夠更準確地解讀屏幕截圖、技術(shù)圖表和用戶界面,可以將設(shè)計稿快速轉(zhuǎn)化為功能原型。
![]()
OpenAI表示,憑借這些改進,Codex能夠在大型代碼庫中進行長時間工作,保持完整上下文,更可靠地完成大規(guī)模重構(gòu)、代碼遷移和功能構(gòu)建等復雜任務(wù),即使計劃改變或嘗試失敗也不會失去追蹤。
網(wǎng)絡(luò)安全能力大幅躍升,為跨越"高"級別門檻做準備
網(wǎng)絡(luò)安全成為GPT-5.2-Codex的另一個重點突破領(lǐng)域。OpenAI在核心網(wǎng)絡(luò)安全評估中觀察到,從GPT-5-Codex開始能力出現(xiàn)急劇跳躍,GPT-5.1-Codex-Max又實現(xiàn)一次大幅提升,如今GPT-5.2-Codex完成第三次跳躍。
在專業(yè)奪旗賽評估中,GPT-5.2-Codex展現(xiàn)出解決需要專業(yè)級網(wǎng)絡(luò)安全技能的高級多步驟真實挑戰(zhàn)的能力。據(jù)OpenAI的準備框架評估,GPT-5.2-Codex雖然尚未達到"高"級別網(wǎng)絡(luò)安全能力,但該公司預計未來AI模型將繼續(xù)沿著這一軌跡發(fā)展,正在按照每個新模型都可能達到"高"級別的標準進行規(guī)劃和評估。
一個真實案例凸顯了新模型的防御性網(wǎng)絡(luò)安全潛力。12月11日,React團隊公布了三個影響使用React服務(wù)器組件構(gòu)建的應用程序的安全漏洞。Stripe旗下Privy公司首席安全工程師Andrew MacPherson在使用GPT-5.1-Codex-Max與Codex CLI研究另一個名為React2Shell的嚴重漏洞時,通過引導Codex執(zhí)行標準防御性安全工作流程,意外發(fā)現(xiàn)了這些此前未知的漏洞并負責任地向React團隊披露。
Altman在社交平臺上披露:“上周,一名使用我們上一代(Codex)模型的安全研究人員發(fā)現(xiàn)并披露了React中可能導致源代碼暴露的漏洞。我相信這些模型對網(wǎng)絡(luò)安全將產(chǎn)生凈收益,但隨著它們的改進,我們正處于'真實影響階段'。”
![]()
推出可信訪問計劃,為專業(yè)安全人員提供特殊權(quán)限
為平衡能力提升與安全風險,OpenAI針對網(wǎng)絡(luò)安全能力的增強在模型層面和產(chǎn)品層面都增加了額外保護措施,包括針對有害任務(wù)和提示注入的專門安全訓練、智能體沙箱以及可配置的網(wǎng)絡(luò)訪問。同時,公司正在進行僅限邀請的可信訪問計劃試點。
該計劃最初僅向經(jīng)過審查的安全專業(yè)人員和具有明確專業(yè)網(wǎng)絡(luò)安全用例的組織開放。符合條件的參與者將獲得使用OpenAI最強大模型進行防御性工作的權(quán)限,使其能夠開展合法的雙重用途工作,如漏洞研究或授權(quán)的紅隊測試,同時消除安全團隊在模擬威脅行為者、分析惡意軟件或壓力測試關(guān)鍵基礎(chǔ)設(shè)施時可能遇到的限制。
Altman在X上表示:"我們正在開始探索用于防御性網(wǎng)絡(luò)安全工作的可信訪問計劃。"他還在另一條帖子中為Codex招聘打廣告:"Codex變得極其出色,并將快速改進。如果你想幫助它在明年變得好100倍,團隊正在招人。保證有瘋狂的冒險,成功的可能性很大。"
![]()
![]()





京公網(wǎng)安備 11011402013531號