21世紀經濟報道記者 董靜怡
12月11日,OpenAI發布GPT-5.2,距離上次版本更新不到一個月。與以往追求顛覆性不同,這次發布的主題明確且務實,官方稱這是其“迄今為止功能最強大的專業知識工作模型系列”。
這顯然是對近期谷歌Gemini 3強勢崛起的回應。
就在上個月,谷歌發布了Gemini 3,憑借其在多模態推理、復雜邏輯任務和實時工具調用等方面的突破性表現,迅速搶占多個權威基準測試榜首,并開始蠶食OpenAI在開發者生態與企業客戶中的既有優勢。
隨后,OpenAI首席執行官山姆·奧特曼向員工發布了一份內部備忘錄,宣布公司進入最高緊急狀態“紅色警報”(Code Red),暫停所有非核心項目,將所有工程和資源集中用于優化其核心產品ChatGPT。一周之后,GPT-5.2火速上線。
GPT-5.2更像是一次戰略防守與務實推進。在競爭壓力之下,OpenAI必須證明自己的模型不僅更聰明,也更實用。
(資料圖)
OpenAI正將重心從炫目的新功能轉向提升可用性和可靠性。
在發布中,OpenAI稱GPT-5.2是其“迄今為止功能最強大的專業知識工作模型系列”,顯然是沖著最近風頭正勁的Gemini 3。OpenAI表示,GPT-5.2在創建電子表格、制作演示文稿、編寫代碼、識別圖像、理解長篇上下文、使用工具以及處理復雜的多步驟項目方面都表現更出色。
GPT-5.2分為三個版本:Instant、Thinking和Pro,分別對應不同應用場景和價格層級。Instant版本在寫作和信息檢索方面速度更快,Thinking版本更擅長結構化工作,例如編碼和規劃,而Pro版本則能為難題提供最準確的答案。
其中,GPT-5.2 Thinking在OpenAI自研的GDPval基準測試中創下歷史最高分,是最適合真實世界專業場景的模型。該測試在44個真實職業場景中對比AI模型與人類專業人士的表現,公司表示,GPT-5.2 Thinking在超過70%的任務中勝過人類專家。
即使是初級投資銀行分析師的角色建模電子表格任務,GPT-5.2 Thinking的平均得分也高達68.4%,比上一代GPT 5.1提高了9.3個百分點。
除了超越人類專家外,GPT-5.2的產出速度是人類專家的11倍以上,而成本不到人類的1%。這種效率與成本的巨大優勢,使其在企業市場展現出強大的商業化潛力。
可靠性提升是GPT-5.2的另一大亮點,新版本能顯著減少“幻覺”(hallucinations)。據公司數據,在針對事實性問答的基準測試中,GPT-5.2 Thinking的幻覺率比GPT-5.1降低了30%。這意味著在金融分析、法律研究、醫療診斷支持等容錯率極低的領域,AI的可用性邁出了實質性一步。
在編碼能力方面,GPT-5.2 Thinking在SWE-Bench Pro上取得55.6%的成績,在SWE-bench Verified上更是達到80%的新高。對于日常專業用途而言,這意味著該模型可以更可靠地調試生產代碼、實現功能請求、重構大型代碼庫,并以更少的人工干預實現交付。
“GPT-5.2在端到端執行復雜的現實世界任務方面比以往任何模型都做得更好。”OpenAI總結道。
GPT-5.2將同時面向ChatGPT用戶和使用OpenAI API的開發者開放。在API平臺,GPT-5.2定價為每百萬輸入token 1.75美元、每百萬輸出token 14美元。OpenAI稱,盡管GPT-5.2的單個token成本更高,但由于其更高的token效率,達到特定質量水平的總成本反而更低。
值得注意的是,就在幾天前,山姆·奧特曼宣布公司進入“紅色警報”狀態,推遲廣告業務及AI代理等新項目開發,集中資源優化ChatGPT核心技術。他在備忘錄中直言:“我們正處于ChatGPT的關鍵時刻。”
過去兩年,AI行業陷入“模型競賽”,但資本市場對單純的技術突破已顯疲態,投資者關注焦點已從誰的模型更強轉向誰的AI能賺錢。
此背景下,競爭對手谷歌的Gemini 3發布引發行業震動,該模型不僅刷新多項性能記錄,更展現了AI從“回答問題”到“完成工作”的轉變,被認為是谷歌重回AI第一陣營的標志。
Salesforce首席執行官馬克·貝尼奧夫近日表示,因Gemini的“驚人”進步,他目前已放棄ChatGPT并轉投Gemini 3。“AI教父”辛頓也將賭注壓給了谷歌,他表示,“我覺得更讓人意外的是,谷歌居然花了這么久才超越OpenAI”。
根據Sensor Tower的數據,ChatGPT的月活在8月到11月之間僅增長約6%,達到約8.1億,這可能意味著ChatGPT正逐漸接近市場飽和。相比之下,Gemini的全球月活在同期躍升約30%,主要受其新圖像生成模型Nano Banana推出后帶來的用戶激增影響。
這些無疑都在給“老牌王者”OpenAI帶來緊迫感。
OpenAI應用業務CEO菲吉·西莫周四向媒體表示:“我們宣布‘紅色警報’,是為了向全公司明確傳達一個信號:我們要集中資源聚焦于一個關鍵領域,以此真正厘清優先事項。目前,我們已大幅增加了投入到ChatGPT的整體資源。”
西莫否認OpenAI因“紅色警報”而提前了GPT-5.2的發布時間,稱公司數月來一直在籌備這一模型的發布。但她也承認,圍繞ChatGPT增加的資源“確實起到了幫助作用”。
從GPT-5.2的發布不難看出,其努力提升在專業場景中的可用性和可靠性。在競爭壓力下,OpenAI不得不加速商業化進程,將技術優勢轉化為真金白銀的收入。
此次戰略調整也暴露了OpenAI面臨的財務壓力。公司已簽署了價值高達1.4萬億美元的巨額算力基礎設施合約,若用戶增長放緩或市場份額流失,維持這一商業邏輯就會變得有些艱難。
但谷歌的競爭優勢不僅僅體現在模型性能上。其擁有從搜索引擎到移動操作系統、從辦公套件到云服務平臺的完整的生態系統,為Gemini提供了OpenAI難以復制的應用場景。
面對這種局面,OpenAI的選擇有限,但也是明確的。在生態劣勢的情況下,依靠模型性能的領先維持用戶忠誠度;在性能領先受到威脅時,加快迭代速度,優化用戶體驗和參與度。
GPT-5.2就是這個策略鏈條中的最新一環,它可能不是最革命性的更新,但必須是最能留住用戶的更新。





京公網安備 11011402013531號