![]()
智東西
編譯 王欣逸
編輯 程茜
智東西12月19日消息,今日凌晨,OpenAI發(fā)布最新編程模型GPT-5.2-Codex,該模型基于GPT-5.2,對(duì)智能體編程能力進(jìn)行了深度優(yōu)化,具體包括:提升了長(zhǎng)程任務(wù)執(zhí)行、大規(guī)模代碼變更、兼容Windows環(huán)境以及網(wǎng)絡(luò)安全防御等能力。OpenAI在博客中稱這是他們迄今為止最強(qiáng)的編程模型。
![]()
據(jù)OpenAI官方博客,GPT?5.2-Codex不僅繼承了GPT?5.2?的優(yōu)勢(shì),還融合了GPT?5.1-Codex-Max?的前沿智能體編程與終端操作能力,專為復(fù)雜的現(xiàn)實(shí)軟件工程和網(wǎng)絡(luò)安全等專業(yè)領(lǐng)域設(shè)計(jì),
OpenAI已率先在Codex CLI、IDE擴(kuò)展、云端以及代碼審查中發(fā)布了GPT?5.2-Codex,今日起已向所有付費(fèi)ChatGPT用戶開(kāi)放,API訪問(wèn)也即將上線。
值得一提的是,GPT?5.2-Codex發(fā)布之前,谷歌剛宣布推出Gemini 3 Flash模型。有網(wǎng)友讓GPT?5.2-Codex的Gemini 3 Flash共同執(zhí)行任務(wù),結(jié)果,GPT?5.2-Codex敗下陣來(lái),在對(duì)50個(gè)文件進(jìn)行漏洞審查的任務(wù)中,Gemini 3 Flash用時(shí)1分2秒,發(fā)現(xiàn)了5個(gè)問(wèn)題,而GPT-5.2-Codex用時(shí)4分48秒,僅發(fā)現(xiàn)了2個(gè)Gemini 3 Flash已找到的問(wèn)題。
![]()
GPT?5.2-Codex的性能可能不及預(yù)期。有網(wǎng)友稱,GPT?5.2-Codex在SWE-Bench Pro上性能提升不到1%,還沒(méi)有發(fā)布SWE-Bench Verified結(jié)果,這不免讓人推測(cè)GPT?5.2-Codex并未達(dá)當(dāng)前最優(yōu)水平,在一些系統(tǒng)卡基準(zhǔn)測(cè)試中還出現(xiàn)了性能退步。
![]()
據(jù)OpenAI官方博客,從功能上看,GPT?5.2-Codex新增了原生上下文壓縮技術(shù),在長(zhǎng)上下文理解、工具調(diào)用、事實(shí)準(zhǔn)確性以及原生的上下文壓縮上表現(xiàn)提升,推理時(shí)Token使用效率提升,還能更精準(zhǔn)地理解在編碼過(guò)程中共享的截圖、技術(shù)圖表、數(shù)據(jù)圖以及用戶界面。在原生Windows環(huán)境中,GPT?5.2-Codex對(duì)GPT?5.1-Codex-Max的能力做了進(jìn)一步的升級(jí),智能體編程表現(xiàn)更加高效和可靠。
GPT?5.2-Codex在實(shí)際軟件工程任務(wù)中的表現(xiàn)有所提升,包括了代碼庫(kù)導(dǎo)航、重構(gòu)、Pull Request的創(chuàng)建與審查等方面。
從基準(zhǔn)測(cè)試來(lái)看,GPT?5.2-Codex在評(píng)估修復(fù)真實(shí)世界代碼問(wèn)題的SWE-Bench Pro基準(zhǔn)測(cè)試中得分為56.4%,超越GPT-5.2的55.6%得分以及GPT-5.1的50.8%得分;在衡量編譯和服務(wù)器配置等任務(wù)的Terminal-Bench 2.0基準(zhǔn)測(cè)試中,GPT?5.2-Codex得分為64.0%,顯著領(lǐng)先前代版本GPT?5.1-Codex-Max的58.1%,展示出了模型在使用命令行和終端解決代理任務(wù)的進(jìn)步。
![]()
據(jù)OpenAI官方博客,在網(wǎng)絡(luò)安全領(lǐng)域,GPT?5.2-Codex在奪旗挑戰(zhàn)(CTF)中創(chuàng)下所有模型的最佳紀(jì)錄。從折線軌跡來(lái)看,我們也能得出,就網(wǎng)絡(luò)安全評(píng)估,OpenAI的模型能力正在持續(xù)提升。OpenAI博客稱,他們正在全面升級(jí)網(wǎng)絡(luò)安全防護(hù),還引入可信訪問(wèn)機(jī)制來(lái)支持防御工作。
![]()
OpenAI首席執(zhí)行官薩姆·阿爾特曼(Sam Altman)稱,上周,一位安全研究人員利用GPT?5.1-Codex-Max發(fā)現(xiàn)并披露了React中的一個(gè)漏洞,該漏洞可能導(dǎo)致源代碼泄漏。這反映出了模型能力應(yīng)用于網(wǎng)絡(luò)安全帶來(lái)的實(shí)際價(jià)值。阿爾特曼還提到,這些模型還在不斷改進(jìn)中,最終會(huì)給網(wǎng)絡(luò)安全帶來(lái)益處。
![]()
結(jié)語(yǔ):AI編程工具競(jìng)爭(zhēng)加劇
GPT-5.2-Codex是OpenAI在編程模型上的又一次迭代,通過(guò)提升長(zhǎng)程任務(wù)處理、大規(guī)模代碼變更和特定環(huán)境表現(xiàn),它為復(fù)雜開(kāi)發(fā)與安全研究提供了更強(qiáng)大的支持,有望成為發(fā)現(xiàn)和修復(fù)漏洞的有力工具。
在OpenAI本次更新之前,谷歌同日也發(fā)布了低成本的Gemini 3 Flash模型,AI編程賽道競(jìng)爭(zhēng)持續(xù)激烈。就目前來(lái)看,號(hào)稱OpenAI最強(qiáng)編程模型的GPT-5.2-Codex在現(xiàn)實(shí)場(chǎng)景中的實(shí)際效能、與競(jìng)爭(zhēng)對(duì)手產(chǎn)品的比較表現(xiàn)或許不及預(yù)期,該模型的實(shí)際應(yīng)用效果和性能檢驗(yàn)或?qū)⒊蔀榻酉聛?lái)的焦點(diǎn)。
OpenAI、X





京公網(wǎng)安備 11011402013531號(hào)