剛剛,OpenAI發(fā)布GPT-5-Codex:獨立工作超7小時,還能審查大型項目

IP屬地中國·北京 機器之心Pro 時間：2025-09-16 10:27:42

機器之心報道
編輯：Panda
凌晨 1 點，OpenAI 發(fā)布了GPT-5-Codex
從名字也能看出來，這是針對智能體編程任務(wù)進行了專門優(yōu)化的 GPT-5。OpenAI 博客介紹說，GPT-5-Codex 的訓練重點放在真實的軟件工程任務(wù)上。它既能在短時間的交互式會話中快速響應(yīng)，也能獨立完成冗長復雜的任務(wù)。它的代碼審查（code review）能力可以在代碼上線前發(fā)現(xiàn)關(guān)鍵漏洞。

GPT-5-Codex 已經(jīng)在 Codex 的所有使用場景中上線，包括 Codex CLI、IDE 擴展、網(wǎng)頁端、移動設(shè)備以及 GitHub 中的代碼審查。它是云端任務(wù)和代碼審查的默認模型，開發(fā)者也可以通過 Codex CLI 或 IDE 插件，在本地任務(wù)中選擇使用它。順帶一提：Codex 已包含在 ChatGPT 的 Plus、Pro、Business、Edu 和 Enterprise 訂閱中。
發(fā)布兩個半小時后，OpenAI CEO 山姆?奧特曼激動地表示GPT-5-Codex 的流量已經(jīng)占到了 Codex 流量的 40% 左右，并且他預計該模型在今天之內(nèi)就將成為 Codex 的流量主體。

OpenAI 表示：「自從 4 月推出 Codex CLI、5 月推出 Codex Web 以來，Codex 已逐步演變成更高效的編程助手。兩周前，我們把 Codex 整合成一個統(tǒng)一的產(chǎn)品體驗，并與 ChatGPT 賬號打通。這樣，你可以無縫切換本地環(huán)境和云端任務(wù)，不會丟失上下文。」
該模型一發(fā)布就收獲了諸多好評，甚至有人表示這是「自切片面包發(fā)明以來最好的東西」。

OpenAI 已經(jīng)以附錄形式將 GPT-5-Codex 加入了 GPT-5 系統(tǒng)卡。

地址：https://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex/
下面我們就來更詳細地了解一下 GPT?5-Codex。
GPT?5-Codex
GPT-5-Codex 重點優(yōu)化了在真實工程場景中的自主式（agentic）軟件工程能力
它接受過完整項目構(gòu)建、功能開發(fā)、測試編寫、調(diào)試、大規(guī)模重構(gòu)和代碼審查等復雜任務(wù)的訓練。相比 GPT-5，它更易于控制，遵循 AGENTS.md 的指令更好，代碼質(zhì)量更高。OpenAI 表示：「你只需要告訴它想要什么，而不用寫冗長的風格說明。」
其在 SWE-bench Verified（軟件工程）和 Code refactoring tasks（代碼重構(gòu)）兩個基準上的準確度表現(xiàn)都優(yōu)于 GPT-5 (high)。

值得一提的是，OpenAI 在 SWE-bench Verified 上的成績這一次終于使用了該數(shù)據(jù)集中所有的共 500 個任務(wù)，而不是像之前那樣只使用了 477 個任務(wù)（曾因此備受批評），OpenAI 聲稱之前只使用 477 個任務(wù)的原因是「有部分任務(wù)無法在基礎(chǔ)設(shè)施上運行，而現(xiàn)在這一問題已解決。」
至于另一個代碼重構(gòu)基準 Code refactoring tasks 則包含許多來自大型成熟軟件庫的重構(gòu)任務(wù)，覆蓋 Python、Go、OCaml 等語言。比如 Gitea 的一個 PR，就修改了 232 個文件、3541 行代碼，為應(yīng)用邏輯引入 ctx 變量。
GPT-5-Codex 不僅性能更優(yōu)，也能根據(jù)任務(wù)復雜度動態(tài)調(diào)整思考時間
它結(jié)合了兩種關(guān)鍵能力：一是與開發(fā)者配合的交互式會話，二是對長任務(wù)的持久自主執(zhí)行。
在處理小型請求或?qū)υ挄r，GPT-5-Codex 反應(yīng)更快；而在處理復雜任務(wù)（如大型重構(gòu)）時，它能持續(xù)工作更久。OpenAI 表示：「在測試中，我們看到GPT-5-Codex 能獨立運行超過 7 小時，不斷迭代實現(xiàn)、修復測試，最終交付可用代碼。」
OpenAI 還分享了他們的內(nèi)部使用數(shù)據(jù)：
用戶請求中，用戶交互中 token 數(shù)量（包括隱藏的推理和最終的輸出）最少的 10% 情況下，GPT-5-Codex 的 token 消耗比 GPT-5 少 93.7%。用戶交互中 token 數(shù)量最多的 10% 情況下，它會投入更多時間，進行更深入的推理、編輯、測試和迭代。

GPT-5-Codex 也專門訓練了代碼審查能力，可以主動發(fā)現(xiàn)關(guān)鍵漏洞。它會遍歷代碼庫，分析依賴，并運行代碼和測試來驗證正確性。OpenAI 用熱門開源項目的最新提交（commit）做了評估，并讓經(jīng)驗豐富的工程師進行了驗證，結(jié)果發(fā)現(xiàn)：GPT-5-Codex 的審查意見更少出現(xiàn)錯誤或無關(guān)內(nèi)容，更能把注意力集中在關(guān)鍵問題上。

在前端任務(wù)上，GPT-5-Codex 表現(xiàn)可靠。它能生成美觀的桌面應(yīng)用，也在移動網(wǎng)站的偏好測試中顯著提升。云端環(huán)境下，它還能讀取你上傳的圖片或截圖，檢查自己的進度，并把結(jié)果截圖返回。
GPT-5-Codex 針對 Codex CLI、IDE 插件、云環(huán)境和 GitHub 進行了深度優(yōu)化，同時也支持多種工具調(diào)用。不過 OpenAI 也指出：「與通用的 GPT-5 不同，我們建議只在 Codex 或類似場景下使用 GPT-5-Codex。」
Codex 更新
除了發(fā)布 GPT-5-Codex，OpenAI 今天還宣布了 Codex 的一些升級，包含全新設(shè)計的 Codex CLI 以及新的 Codex IDE 插件。
Codex CLI
Codex CLI 是開源的。過去幾個月里，OpenAI 基于社區(qū)反饋重新設(shè)計了 CLI，讓它更適合「自主編程」的工作流，使模型能成為更強大、更可靠的搭檔。
現(xiàn)在用戶可以在 CLI 中直接添加圖片，例如截圖、線框圖和設(shè)計圖。這樣可以建立共享上下文，讓設(shè)計決策更清晰，并更容易得到符合預期的結(jié)果。
在處理復雜任務(wù)時，Codex 會用待辦清單（to-do list）跟蹤進度，還支持 web 搜索和 MCP 等外部系統(tǒng)連接工具，整體的工具調(diào)用更準確。
終端界面也升級了：工具調(diào)用和代碼差異現(xiàn)在格式更清晰，更容易閱讀。

批準模式（approval mode）簡化為三種：
只讀：需要明確批準才能修改；自動：擁有完整工作區(qū)權(quán)限，但在工作區(qū)外仍需批準；完全訪問：可以讀取任意文件，并在有網(wǎng)絡(luò)訪問的情況下運行命令。
CLI 還支持壓縮對話狀態(tài)，方便管理更長的會話。
Codex IDE 插件
Codex 也能在 IDE 中直接使用。這個插件支持 VS Code、Cursor 以及其他 VS Code 分支。它能把 Codex 帶進編輯器，讓用戶能無縫預覽本地改動，并直接用 Codex 修改代碼。

OpenAI 介紹了在 IDE 中使用 Codex 的幾個優(yōu)勢：
你可以寫更簡短的提示詞，得到更快的結(jié)果，因為 Codex 會自動利用上下文，例如你打開的文件或選中的代碼。你可以在云端和本地環(huán)境之間流暢切換。比如，在編輯器里直接創(chuàng)建云端任務(wù)、跟蹤進行中的工作或?qū)彶橐淹瓿傻娜蝿?wù)。如需要調(diào)整，你可以在 IDE 中直接打開云端任務(wù)，Codex 會保留上下文。
云端的 Codex
除了 CLI 和 IDE 插件，新的 GitHub 集成也讓 Codex 的云端智能體更貼近開發(fā)者的日常工作流。用戶無需離開編輯器或 GitHub，就能把任務(wù)交給 Codex。

OpenAI 表示，他們也一直在幕后不斷提升云端性能，包括：
通過緩存容器（caching containers），新任務(wù)和跟進任務(wù)的完成時間縮短了 90%。Codex 會自動檢測常見的初始化腳本并執(zhí)行，幫你完成環(huán)境配置。在配置了網(wǎng)絡(luò)權(quán)限后，它還能在運行時執(zhí)行 pip install 等命令，安裝所需依賴。
和 CLI、IDE 一樣，云端 Codex 也支持使用圖片。你可以上傳前端設(shè)計規(guī)范或 UI bug 截圖。Codex 會在瀏覽器里運行自己生成的內(nèi)容，檢查效果，并把截圖附在任務(wù)或 GitHub PR 中。
代碼審查
Codex 現(xiàn)在也支持代碼審查功能，可以發(fā)現(xiàn)關(guān)鍵缺陷。和靜態(tài)分析工具不同，Codex 會：
對比 PR 的目標和實際改動，分析整個代碼庫和依賴關(guān)系，運行代碼和測試來驗證行為。
這種審查力度，通常只有最仔細的人類工程師才能做到。Codex 正好補上這一缺口，幫助團隊更早發(fā)現(xiàn)問題，減輕審查負擔，讓上線更放心。

在 GitHub 上啟用后：
當 PR 從草稿變?yōu)榭蓪彶闋顟B(tài)時，Codex 會自動給出分析。如果它建議修改，你可以直接在同一討論線程里讓它實現(xiàn)。你也可以手動請求審查，比如在 PR 里輸入「@codex review」，甚至給額外指令，如「@codex review for security vulnerabilities」（檢查安全漏洞）或「@codex review for outdated dependencies」（檢查過時依賴）。
OpenAI 表示：「在 OpenAI 內(nèi)部，Codex 已經(jīng)審查了我們絕大多數(shù) PR，每天能發(fā)現(xiàn)數(shù)百個問題，很多在人工審查開始之前就已經(jīng)被攔下。這讓團隊能更快推進，同時保持信心。」
OpenAI 如何讓 Codex 更安全？
OpenAI 還介紹了在開發(fā) Codex 時對代碼與數(shù)據(jù)安全的保護措施，他們也部署了一些防范潛在濫用的手段。
默認沙箱環(huán)境：無論本地還是云端，Codex 默認運行在沙箱環(huán)境中，且關(guān)閉網(wǎng)絡(luò)訪問。這可以避免它在你的電腦上執(zhí)行有害操作，也能減少來自不可信來源的提示詞注入風險。權(quán)限機制：在執(zhí)行可能危險的操作前，Codex 會請求許可。它也經(jīng)過訓練，會運行命令來驗證自己的輸出。可配置的安全設(shè)置：開發(fā)者可以根據(jù)風險承受度調(diào)整設(shè)置。在云端，可以限制網(wǎng)絡(luò)訪問只允許可信域名；在 CLI 和 IDE 插件中，開發(fā)者可以決定是否批準 Codex 運行命令，或允許它使用網(wǎng)頁搜索、連接 MCP 服務(wù)器。這樣能擴展能力，但也會增加風險。
OpenAI 也給出了建議：「我們始終建議開發(fā)者在上線前先檢查 Codex 的工作結(jié)果。Codex 會在每個任務(wù)中提供引用、終端日志和測試結(jié)果，方便人工驗證。」但 OpenAI 也強調(diào)：Codex 應(yīng)作為附加審查者，而不是完全取代人工審查。
和 GPT-5 一樣，OpenAI 依然將 GPT-5-Codex 在生物與化學領(lǐng)域的任務(wù)歸類為 High 能力，并采取了相應(yīng)的安全措施，以盡量減少潛在風險。
價格與可用性
Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 訂閱中。
Plus、Edu、Business 用戶：每周可覆蓋幾次集中的編程會話。Pro 用戶：支持一整周、多個項目的完整工作量。Business 計劃：可以額外購買積分，突破默認上限。Enterprise 計劃：提供共享積分池，按實際使用付費。
目前用戶還無法通過 API Key 使用 Codex CLI，但 OpenAI 也表示很快（soon）將通過 API 開放 GPT-5-Codex。

免責聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

歐洲刑警組織最新設(shè)想：2035年有可能爆發(fā)“機器人犯罪潮”

高德上線3D收費站：全國164城全覆蓋，安全島輪廓精準還原

全站最新

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

熱門推薦

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業(yè)爆火，現(xiàn)烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

歐洲刑警組織最新設(shè)想：2035年有可能爆發(fā)“機器人犯罪潮”

高德上線3D收費站：全國164城全覆蓋，安全島輪廓精準還原

廣汽能源：本月將推出機械臂式自動充電，明年兆瓦超充陸續(xù)落地

事關(guān)互聯(lián)網(wǎng)平臺定價促銷等行為，新規(guī)更好保護消費者和經(jīng)營者

OPPO Reno 15 Pro Mini參數(shù)曝光：天璣8450+1.5K高刷小直屏

Ubiquant團隊推出通用推理模型URM：讓AI像人類一樣循環(huán)思考

沒受輿論影響！俞敏洪曬東方甄選年會現(xiàn)場視頻，網(wǎng)友炸鍋了

小米HyperVL：讓手機也能擁有"火眼金睛"的AI大模型

清華大學開創(chuàng)性突破：讓AI能像福爾摩斯一樣"破解"假視頻的秘密

合肥工業(yè)大學團隊首創(chuàng)TIMAR：3D虛擬人實現(xiàn)真實對話交互

維也納大學團隊破解超雙曲幾何在強化學習中的訓練難題