12月12日消息,OpenAI迎來10周年之際,一口氣官宣多項(xiàng)大事:
1、 發(fā)布GPT-5.2系列3款大模型。GPT?5.2系列在通用智能、長上下文理解、智能體工具調(diào)用以及視覺方面都有顯著提升,性能全面碾壓谷歌Gemini 3 Pro和Anthropic Claude Opus 4.5。

2、獲得迪士尼10億美元投資,雙方達(dá)成協(xié)議,迪士尼成為 Sora的第一個(gè)主要內(nèi)容授權(quán)合作伙伴。

作為這項(xiàng)為期三年的新授權(quán)協(xié)議的一部分,Sora將能夠生成由用戶提示的短視頻,供粉絲觀看和分享,這些視頻將基于迪士尼、漫威、皮克斯和星球大戰(zhàn)品牌中超過 200 個(gè)動(dòng)畫、面具和生物角色,包括服裝、道具、車輛和標(biāo)志性環(huán)境。ChatGPT Images 也將能夠?qū)⒂脩舻膸拙湓捲趲酌腌妰?nèi)轉(zhuǎn)化為完整生成的圖像。該協(xié)議不包括任何人物肖像或聲音。
Sora和ChatGPT Images預(yù)計(jì)將在2026年初開始制作迪士尼多品牌授權(quán)角色的粉絲視頻。
除了許可協(xié)議,迪士尼還將成為OpenAI的主要客戶,使用其API構(gòu)建新產(chǎn)品、工具和體驗(yàn),包括迪士尼+,并為員工部署ChatGPT。
OpenAI創(chuàng)始人Sam Altman在10周年的公開信中表示:“我從未對(duì)我們的研究和產(chǎn)品路線圖,以及通向使命的總體視野感到如此樂觀。再過十年,我?guī)缀醮_信我們將建成超級(jí)智能。2035年的人們將能夠做到一些我們現(xiàn)在難以輕易想象的事情。”
GPT-5.2 三款模型齊發(fā)
OpenAI 推出最新大模型系列 GPT-5.2,將其定位為迄今為止最適合日常專業(yè)使用的模型,同時(shí)被視為在愈發(fā)激烈的代理型 AI競(jìng)爭(zhēng)中的關(guān)鍵一步。
GPT-5.2 系列一共3款模型,全部上線:
? GPT?5.2 Instant(即時(shí)版) 是一款高效而強(qiáng)大的日常工作與學(xué)習(xí)“主力模型”,在信息查詢、操作指南、步驟講解、技術(shù)寫作以及翻譯方面都有顯著提升,并延續(xù)了 GPT?5.1 Instant 更溫暖、更自然的對(duì)話風(fēng)格。早期測(cè)試者特別指出,其解釋更清晰,能夠在一開始就呈現(xiàn)出關(guān)鍵信息。
? GPT?5.2 Thinking(思考版)專為更深入的工作而打造,幫助用戶以更高的完成度處理復(fù)雜任務(wù),擅長編碼、長文檔總結(jié)、回答上傳文件相關(guān)問題、逐步推導(dǎo)數(shù)學(xué)與邏輯問題,以及通過更清晰的結(jié)構(gòu)和更有用的細(xì)節(jié)支持規(guī)劃與決策。
? GPT?5.2 Pro(專業(yè)版)是應(yīng)對(duì)高難度問題時(shí)最智能、最可靠的選擇,在需要高質(zhì)量答案的場(chǎng)景中尤為適合。早期測(cè)試顯示,它的重大錯(cuò)誤更少,在編程等復(fù)雜領(lǐng)域的表現(xiàn)也更為出色。
GPT-5.2 將從即日起陸續(xù)在 ChatGPT 中上線,率先向 ChatGPT Plus、Pro、Go、Business 和 Enterprise 等付費(fèi)用戶開放。


在API價(jià)格方面,GPT-5.2的調(diào)用價(jià)格較上一代上調(diào),輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價(jià)為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens)。
GPT-5.2能力碾壓Gemini 3 Pro、超“專業(yè)打工人”
看一下GPT-5.2 系列的具體性能。
在OpenAI公布的SWE-Bench Pro、GPQA Diamond等8項(xiàng)基準(zhǔn)測(cè)試中,GPT-5.2 Thinking的分?jǐn)?shù)均超過谷歌Gemini 3 Pro和Anthropic Claude Opus 4.5。
OpenAI 表示,GPT?5.2 在通用智能、長上下文理解、智能體工具調(diào)用以及視覺方面都有顯著提升,使其在端到端執(zhí)行復(fù)雜的真實(shí)任務(wù)時(shí),比以往任何模型都更為出色。
相比 GPT-5.1,GPT-5.2 系列在制作電子表格、構(gòu)建演示文稿、編寫代碼、理解長文本、處理圖像、調(diào)用工具以及執(zhí)行復(fù)雜多步驟任務(wù)等方面都有明顯提升。該系列模型整體精度更高,幻覺更少,尤其是 Thinking 模型在專業(yè)場(chǎng)景下更適合用作高可靠性的智能代理內(nèi)核。
從OpenAI 公開的數(shù)據(jù)來看,GPT?5.2 在眾多基準(zhǔn)測(cè)試中都刷新了行業(yè)水平,包括 GDPval。

在GDPval 測(cè)試中,模型需要完成定義明確的知識(shí)型工作,內(nèi)容涵蓋美國 GDP 貢獻(xiàn)度最高的9個(gè)行業(yè)中的44種職業(yè)。任務(wù)要求生成真實(shí)的工作成果,例如銷售演示文稿、會(huì)計(jì)表格、急診排班表、制造業(yè)圖表或短視頻。
在該評(píng)測(cè)中,GPT?5.2 Thinking 是首個(gè)達(dá)到或超過人類專家水平的模型。
根據(jù)人類專家評(píng)審的結(jié)果,GPT?5.2 Thinking 在 GDPval 的知識(shí)型任務(wù)中,那些人類專家耗費(fèi)4-8小時(shí)完成的任務(wù),有 70.9% 的對(duì)比項(xiàng)目表現(xiàn)優(yōu)于頂尖行業(yè)專業(yè)人士或與其持平。這些任務(wù)包括制作演示文稿、電子表格以及其他專業(yè)產(chǎn)出。
同時(shí),GPT?5.2 Thinking 的輸出速度比專家快 11 倍以上,成本卻不到人類專家的1%。
這表明,當(dāng)與人類監(jiān)督相結(jié)合時(shí),GPT?5.2可以有效輔助完成日常由“白領(lǐng)”們來做的“專業(yè)工作”。
OpenAI舉例,在針對(duì)初級(jí)投資銀行分析師的內(nèi)部電子表格建模任務(wù)的基準(zhǔn)測(cè)試中(例如,為財(cái)富 500 強(qiáng)公司制作格式規(guī)范、引用完整的三表模型,或?yàn)樗接谢灰讟?gòu)建杠桿收購模型),GPT?5.2 Thinking 的平均任務(wù)得分較 GPT?5.1 提升了9.3%,由 59.1% 增至 68.4%。GPT?5.2 Thinking 生成的電子表格和幻燈片在復(fù)雜度與格式呈現(xiàn)上都有明顯提升。
編碼能力:
GPT-5.2 代表了自 GPT-5 以來在智能體編碼上的最大飛躍,并且在同價(jià)位中是業(yè)界領(lǐng)先的編碼模型。

GPT?5.2 Thinking 在評(píng)估真實(shí)軟件工程能力的基準(zhǔn)測(cè)試 SWE-bench Pro 取得了 55.6% 的成績(jī);在 SWEvbench Verified 測(cè)試中GPT?5.2 Thinking 取得了全新的最高成績(jī)80%。GPT?5.2 Thinking 在前端軟件工程方面也優(yōu)于 GPT?5.1 Thinking。
長文本處理能力:
GPT?5.2 Thinking 在長上下文推理方面樹立了新的技術(shù)標(biāo)桿。OpenAI MRCRv2 是一項(xiàng)用于測(cè)試模型整合長文檔中分散信息能力的評(píng)估,GPT?5.2 Thinking 在該評(píng)估中表現(xiàn)領(lǐng)先。在深度文檔分析,如需要跨數(shù)十萬 Token 關(guān)聯(lián)信息,GPT?5.2 Thinking 的準(zhǔn)確性顯著高于 GPT?5.1 Thinking。在 4-needle MRCR 評(píng)測(cè)變體(最長可達(dá) 256k Token)中實(shí)現(xiàn)接近 100% 的準(zhǔn)確率。

在實(shí)際應(yīng)用中,這讓專業(yè)人士能夠使用 GPT?5.2 處理長文檔,例如報(bào)告、合同、研究論文、會(huì)議記錄和多文件項(xiàng)目,同時(shí)在數(shù)十萬 Token 的范圍內(nèi)保持連貫性和準(zhǔn)確性。因此,GPT?5.2 尤其適合深度分析、信息綜合以及復(fù)雜的多來源工作流程。
視覺能力:
GPT?5.2 Thinking是OpenAI目前最強(qiáng)的視覺模型,在圖表推理和軟件界面理解方面將錯(cuò)誤率大幅降低,約減少了一半。

在日常專業(yè)場(chǎng)景中,GPT?5.2 Thinking能夠更準(zhǔn)確地理解控制面板、產(chǎn)品截圖、技術(shù)圖示和可視化報(bào)告,從而支持金融、運(yùn)營、工程、設(shè)計(jì)和客戶支持等以視覺信息為核心的工作流程。
工具調(diào)用能力:
GPT?5.2 Thinking 在 Tau2 bench Telecom 測(cè)試中取得了 98.7% 的全新優(yōu)異成績(jī),展示了它在長程、多輪任務(wù)中可靠使用工具的能力。

在對(duì)延遲敏感的場(chǎng)景中,GPT?5.2 Thinking 在 reasoning.effort=‘none’ 模式下也有顯著提升,性能大幅領(lǐng)先 GPT?5.1 和 GPT?4.1。
這意味著GPT?5.2 Thinking在處理端到端的工作流程更加穩(wěn)健,例如處理客戶支持案例、從多個(gè)系統(tǒng)提取數(shù)據(jù)、執(zhí)行分析以及生成最終結(jié)果,各步驟之間出現(xiàn)中斷的情況也會(huì)更少。
科學(xué)與數(shù)學(xué)能力:
GPT?5.2 Pro 和 GPT?5.2 Thinking 是OpenAI目前在科學(xué)和數(shù)學(xué)方面實(shí)力最強(qiáng)的模型。
在研究生級(jí)防 Google 問答基準(zhǔn)測(cè)試 GPQA Diamond*中,GPT?5.2 Pro 取得了93.2%的成績(jī),GPT?5.2 Thinking 緊隨其后,達(dá)到92.4%。

在專家級(jí)數(shù)學(xué)評(píng)測(cè) FrontierMath (Tier 1–3)中,GPT?5.2 Thinking 樹立了新的技術(shù)標(biāo)桿,解決了40.3%的問題。
隨著GPT-5.2大模型的發(fā)布,微軟董事長兼CEO Satya Nadella已在X平臺(tái)上發(fā)文宣布,GPT-5.2將全面進(jìn)入Microsoft 365 Copilot、GitHub Copilot與Foundry等產(chǎn)品體系,并作為新的“默認(rèn)推理模型”服務(wù)更多工作流場(chǎng)景。(宜月)





京公網(wǎng)安備 11011402013531號(hào)