OpenAI最強(qiáng)編程模型登場(chǎng)，實(shí)測(cè)竟又被Gemini 3 Flash按趴下

IP屬地中國(guó)·北京 智東西 時(shí)間：2025-12-19 12:19:03

智東西
編譯王欣逸
編輯程茜
智東西12月19日消息，今日凌晨，OpenAI發(fā)布最新編程模型GPT-5.2-Codex，該模型基于GPT-5.2，對(duì)智能體編程能力進(jìn)行了深度優(yōu)化，具體包括：提升了長(zhǎng)程任務(wù)執(zhí)行、大規(guī)模代碼變更、兼容Windows環(huán)境以及網(wǎng)絡(luò)安全防御等能力。OpenAI在博客中稱這是他們迄今為止最強(qiáng)的編程模型。

據(jù)OpenAI官方博客，GPT?5.2-Codex不僅繼承了GPT?5.2?的優(yōu)勢(shì)，還融合了GPT?5.1-Codex-Max?的前沿智能體編程與終端操作能力，專為復(fù)雜的現(xiàn)實(shí)軟件工程和網(wǎng)絡(luò)安全等專業(yè)領(lǐng)域設(shè)計(jì)，
OpenAI已率先在Codex CLI、IDE擴(kuò)展、云端以及代碼審查中發(fā)布了GPT?5.2-Codex，今日起已向所有付費(fèi)ChatGPT用戶開(kāi)放，API訪問(wèn)也即將上線。
值得一提的是，GPT?5.2-Codex發(fā)布之前，谷歌剛宣布推出Gemini 3 Flash模型。有網(wǎng)友讓GPT?5.2-Codex的Gemini 3 Flash共同執(zhí)行任務(wù)，結(jié)果，GPT?5.2-Codex敗下陣來(lái)，在對(duì)50個(gè)文件進(jìn)行漏洞審查的任務(wù)中，Gemini 3 Flash用時(shí)1分2秒，發(fā)現(xiàn)了5個(gè)問(wèn)題，而GPT-5.2-Codex用時(shí)4分48秒，僅發(fā)現(xiàn)了2個(gè)Gemini 3 Flash已找到的問(wèn)題。

GPT?5.2-Codex的性能可能不及預(yù)期。有網(wǎng)友稱，GPT?5.2-Codex在SWE-Bench Pro上性能提升不到1%，還沒(méi)有發(fā)布SWE-Bench Verified結(jié)果，這不免讓人推測(cè)GPT?5.2-Codex并未達(dá)當(dāng)前最優(yōu)水平，在一些系統(tǒng)卡基準(zhǔn)測(cè)試中還出現(xiàn)了性能退步。

據(jù)OpenAI官方博客，從功能上看，GPT?5.2-Codex新增了原生上下文壓縮技術(shù)，在長(zhǎng)上下文理解、工具調(diào)用、事實(shí)準(zhǔn)確性以及原生的上下文壓縮上表現(xiàn)提升，推理時(shí)Token使用效率提升，還能更精準(zhǔn)地理解在編碼過(guò)程中共享的截圖、技術(shù)圖表、數(shù)據(jù)圖以及用戶界面。在原生Windows環(huán)境中，GPT?5.2-Codex對(duì)GPT?5.1-Codex-Max的能力做了進(jìn)一步的升級(jí)，智能體編程表現(xiàn)更加高效和可靠。
GPT?5.2-Codex在實(shí)際軟件工程任務(wù)中的表現(xiàn)有所提升，包括了代碼庫(kù)導(dǎo)航、重構(gòu)、Pull Request的創(chuàng)建與審查等方面。
從基準(zhǔn)測(cè)試來(lái)看，GPT?5.2-Codex在評(píng)估修復(fù)真實(shí)世界代碼問(wèn)題的SWE-Bench Pro基準(zhǔn)測(cè)試中得分為56.4%，超越GPT-5.2的55.6%得分以及GPT-5.1的50.8%得分；在衡量編譯和服務(wù)器配置等任務(wù)的Terminal-Bench 2.0基準(zhǔn)測(cè)試中，GPT?5.2-Codex得分為64.0%，顯著領(lǐng)先前代版本GPT?5.1-Codex-Max的58.1%，展示出了模型在使用命令行和終端解決代理任務(wù)的進(jìn)步。

據(jù)OpenAI官方博客，在網(wǎng)絡(luò)安全領(lǐng)域，GPT?5.2-Codex在奪旗挑戰(zhàn)（CTF）中創(chuàng)下所有模型的最佳紀(jì)錄。從折線軌跡來(lái)看，我們也能得出，就網(wǎng)絡(luò)安全評(píng)估，OpenAI的模型能力正在持續(xù)提升。OpenAI博客稱，他們正在全面升級(jí)網(wǎng)絡(luò)安全防護(hù)，還引入可信訪問(wèn)機(jī)制來(lái)支持防御工作。

OpenAI首席執(zhí)行官薩姆·阿爾特曼（Sam Altman）稱，上周，一位安全研究人員利用GPT?5.1-Codex-Max發(fā)現(xiàn)并披露了React中的一個(gè)漏洞，該漏洞可能導(dǎo)致源代碼泄漏。這反映出了模型能力應(yīng)用于網(wǎng)絡(luò)安全帶來(lái)的實(shí)際價(jià)值。阿爾特曼還提到，這些模型還在不斷改進(jìn)中，最終會(huì)給網(wǎng)絡(luò)安全帶來(lái)益處。

結(jié)語(yǔ)：AI編程工具競(jìng)爭(zhēng)加劇
GPT-5.2-Codex是OpenAI在編程模型上的又一次迭代，通過(guò)提升長(zhǎng)程任務(wù)處理、大規(guī)模代碼變更和特定環(huán)境表現(xiàn)，它為復(fù)雜開(kāi)發(fā)與安全研究提供了更強(qiáng)大的支持，有望成為發(fā)現(xiàn)和修復(fù)漏洞的有力工具。
在OpenAI本次更新之前，谷歌同日也發(fā)布了低成本的Gemini 3 Flash模型，AI編程賽道競(jìng)爭(zhēng)持續(xù)激烈。就目前來(lái)看，號(hào)稱OpenAI最強(qiáng)編程模型的GPT-5.2-Codex在現(xiàn)實(shí)場(chǎng)景中的實(shí)際效能、與競(jìng)爭(zhēng)對(duì)手產(chǎn)品的比較表現(xiàn)或許不及預(yù)期，該模型的實(shí)際應(yīng)用效果和性能檢驗(yàn)或?qū)⒊蔀榻酉聛?lái)的焦點(diǎn)。
OpenAI、X

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

黑芝麻智能：快速增長(zhǎng)背后，全維度競(jìng)爭(zhēng)

OpenAI最強(qiáng)代碼模型GPT-5.2-Codex上線

存儲(chǔ)成本飆升沖擊全球手機(jī)市場(chǎng)：明年均價(jià)上漲6.9%！所有廠商出貨量下跌

最強(qiáng)編程模型！OpenAI發(fā)布GPT-5.2-Codex

vivo S50 Pro mini實(shí)拍：mini小直屏，長(zhǎng)焦Live搭滿血性能鐵三角

12國(guó)外交官組團(tuán)體驗(yàn)阿里千問(wèn)APP：60秒生成PPT驚艷全場(chǎng)

全站最新

黑芝麻智能：快速增長(zhǎng)背后，全維度競(jìng)爭(zhēng)

OpenAI最強(qiáng)代碼模型GPT-5.2-Codex上線

存儲(chǔ)成本飆升沖擊全球手機(jī)市場(chǎng)：明年均價(jià)上漲6.9%！所有廠商出貨量下跌

最強(qiáng)編程模型！OpenAI發(fā)布GPT-5.2-Codex

熱門推薦

大眾汽車歡迎歐盟放寬2035年汽車排放規(guī)則之舉

?捷達(dá)汽車科技公司成立，地方國(guó)資產(chǎn)業(yè)基金持股逾26%

中國(guó)成為《瘋狂動(dòng)物城2》全球最大票倉(cāng)

華為系具身初創(chuàng)企業(yè)「具腦磐石」與紐泰格科技集團(tuán)達(dá)成戰(zhàn)略合作

寧德時(shí)代等成立國(guó)聯(lián)芯材科技公司# 注冊(cè)資本約1.7億

銀河通用機(jī)器人完成超3億美元新一輪融資

VITURE Pro在德國(guó)被禁售

康師傅飲品投資公司董事長(zhǎng)變更

2025國(guó)內(nèi)「年度字詞」為「深度求索（DeepSeek）」

奇瑞汽車等成立新產(chǎn)業(yè)投資合伙企業(yè)

三星首款三折疊手機(jī)Galaxy Z TriFold正式開(kāi)售

十周年感恩回饋！華為WATCH 5優(yōu)惠500元：售價(jià)2199元起

Mythic 融資 1.25 億美元，力圖以超高能效 AI 芯片挑戰(zhàn) NVIDIA

騰訊元寶宣布支持微信一句話設(shè)置提醒

AI 刻畫時(shí)代！DeepSeek 當(dāng)選“漢語(yǔ)盤點(diǎn) 2025”年度國(guó)內(nèi)詞