智通財經(jīng)APP獲悉,國泰海通發(fā)布研報稱,GPT-5.2系列的發(fā)布,標(biāo)志著大模型能力從技術(shù)演示邁入規(guī)模化經(jīng)濟(jì)生產(chǎn)的新階段。其在抽象推理與復(fù)雜知識工作上達(dá)到人類專家水準(zhǔn),證實了AI在高端專業(yè)領(lǐng)域創(chuàng)造經(jīng)濟(jì)價值的潛力。這將推動產(chǎn)業(yè)競爭焦點加速從底層模型向具體的場景應(yīng)用、企業(yè)服務(wù)及人機協(xié)同工作流等落地環(huán)節(jié)轉(zhuǎn)移。
國泰海通主要觀點如下:
GPT-5.2在核心推理與專業(yè)工作任務(wù)上實現(xiàn)歷史性跨越,首次在綜合評估中達(dá)到人類專家水平
12月12日,OpenAI于十周年之際正式發(fā)布GPT-5.2系列模型,該系列包含Instant、Thinking與Pro三個版本,旨在應(yīng)對不同復(fù)雜度的任務(wù)需求。在被譽為“AI界圖靈測試”的ARC-AGI-2測試中,其獲得52.9%的分?jǐn)?shù),較GPT-5.1的17.6%提升近三倍,抽象推理能力追平近期發(fā)布的Gemini 3。更具突破性意義的是其在GDPval基準(zhǔn)測試中的表現(xiàn),該測試覆蓋44個真實職業(yè)場景,GPT-5.2 Thinking在70.9%的任務(wù)上勝過或打平行業(yè)專家,GPT-5.2 Pro更是達(dá)到74.1%,這是AI模型首次在綜合性知識工作評估中整體達(dá)到人類頂尖水平。在投行財務(wù)建模等專業(yè)任務(wù)中,其平均得分從59.1%提升至68.4%,標(biāo)志著AI開始深度滲透核心生產(chǎn)力環(huán)節(jié)。
GPT-5.2的代碼生成、長上下文與視覺理解能力同步取得顯著進(jìn)步,為復(fù)雜多模態(tài)任務(wù)提供可靠支持
在更接近真實工程環(huán)境的SWEBench Pro評測中,GPT-5.2 Thinking取得55.6%的SOTA成績,并在前端與3D界面生成上展現(xiàn)出更強潛力。其長上下文處理能力實現(xiàn)質(zhì)的飛躍,在256K token長度的“多針檢索”測試中準(zhǔn)確率接近100%,而GPT-5.1僅為30%,使其能夠深度分析超長文檔與復(fù)雜項目。視覺方面,其在科學(xué)圖表問答(CharXiv Reasoning)與GUI界面理解(ScreenSpot-Pro)的錯誤率較前代降低近半,空間定位能力顯著增強,為AI代理處理真實世界信息夯實了基礎(chǔ)。
GPT-5.2的工具調(diào)用可靠性大幅提升,面向企業(yè)級應(yīng)用優(yōu)化安全與部署策略
GPT-5.2在多輪復(fù)雜工具調(diào)用測試(Tau2-bench)中取得98.7%的高分,能自主規(guī)劃并完成涉及改簽、賠償?shù)榷嗖襟E的客服流程,展現(xiàn)了強大的端到端任務(wù)執(zhí)行能力。與此同時,OpenAI延續(xù)了其迭代部署策略,在ChatGPT中為付費用戶提供GPT-5.2系列(Instant, Thinking, Pro),并保留GPT-5.1長達(dá)三個月以保障平穩(wěn)過渡。API雖提價約40%,但官方強調(diào)其token效率的提升可使總成本可控,持續(xù)測試中的年齡預(yù)測與內(nèi)容保護(hù)機制也體現(xiàn)了對安全性的持續(xù)投入。
風(fēng)險提示:大模型迭代速度不及預(yù)期,算力供給不足,數(shù)據(jù)隱私合規(guī)風(fēng)險。





京公網(wǎng)安備 11011402013531號