突發(fā)！Claude Opus 4.5編程世界第一，把谷歌OpenAI踢下王座

IP屬地中國·北京 新智元 時間：2025-11-25 10:18:15

新智元報道
編輯：編輯部
深夜，Claude Opus 4.5重磅出世，編程實力暴擊Gemini 3 Pro、GPT-5.1。才一周的時間，AI圈就完成了一次閉環(huán)式迭代。
全球編碼王座，一夜易主。
果不其然，Anthropic深夜放出了Claude Opus 4.5，堪稱全球最頂尖的模型。
它不僅編程強，而且智能體和計算機使用（computer use）能力也是一流。

Opus 4.5的誕生，標志著AI能力再一次飛躍，更將在未來徹底變革工作的方式。
基準測試中，Opus 4.5的編碼、工具調(diào)用、計算機使用的成績刷新SOTA，比Sonnet 4.5、Opus 4.1領先一大截。
不僅如此，就連發(fā)布不過一周的Gemini 3 Pro、GPT-5.1慘遭降維打擊。
SWE-bench Verified一張圖，直接證明了Opus 4.5強大實力，80.9%的準確率，世界第一。
同時，在ARC-AGI-2評估中，Opus 4.5（64k）拿下了37.6%的高分。

左右滑動查看
Opus 4.5這版厲害之處：在無需人工干預的情況下，就能處理模糊信息，還會權衡利弊。
即便是遇到復雜的多系統(tǒng)漏洞，也能夠找出修復方法。
總之，用起來就一個感覺——「一點就透」。
內(nèi)部評估中，Opus 4.5+Claude Code聯(lián)動使用，平均生產(chǎn)效率暴增220%。

目前，Opus 4.5已在APP、Claude API和三大主流云平臺中上線。
價格方面，相較以往暴降不少，輸入5美元/百萬token，輸出25美元/百萬token。

Gemini 3 Pro干翻了GPT-5.1，但如今，就編碼性能，Opus 4.5全面碾壓前兩者。
不過一周的時間，AI圈真正閉環(huán)了。

編程之王回歸，真SOTA
有一說一，Claude Opus 4.5是地表最強編程模型。
它智能、高效，是目前全球在編程、AI智能體（Agents）以及計算機操作方面最強悍的模型。
Anthropic研究員Adam Wolff豪言，也就在明年上半年，軟件工程徹底終結(jié)了。

在深度研究、處理PPT和電子表格等日常任務上，它也有顯著提升。
在真實場景的軟件工程測試中，Claude Opus 4.5更是刷新SOTA：

在SWE-bench Verified上的對比，Opus 4.5得分最高
與Opus一同發(fā)布的，還有Claude開發(fā)者平臺、Claude Code以及消費者端App的更新。
Anthropic為長時間運行的智能體提供了新工具，并帶來了在Excel、Chrome和桌面端使用Claude的新方式。在Claude App中，長對話不再會因為上下文限制而中斷。
碾壓Gemini 3，超越人類
首先，Opus 4.5在視覺、推理和數(shù)學能力上均得到了全面提升，并在多個領域達到了業(yè)界頂尖水平。
尤其是，在編碼、智能體、計算機使用三大項，完勝Gemini 3 Pro、GPT-5.1。

其次，在代碼方面。
Opus 4.5編寫的代碼質(zhì)量更高，在SWE-bench Multilingual測試的8種編程語言中，它有7種都處于領先地位。

Opus 4.5能夠輕松解決具有挑戰(zhàn)性的編碼問題，在Aider Polyglot測試中比Sonnet 4.5提升了10.6%。

在智能體搜索任務上，Opus 4.5實現(xiàn)了重大突破，在BrowseComp-Plus基準測試中取得顯著提升。

Opus 4.5表現(xiàn)穩(wěn)定持久，在Vending-Bench基準上整體收益比Sonnet 4.5高出29%.

衡量智能體（Agentic）能力的一個通用基準是τ2-bench，它考察智能體在現(xiàn)實世界多輪任務中的表現(xiàn)。
在一個場景中，模型需要扮演航空公司客服代理，幫助一位焦急的客戶。基準測試原本期望模型拒絕修改「基本經(jīng)濟艙」的預訂，因為航空公司規(guī)定此類機票不可更改。
然而，Opus 4.5找到了一種極具洞察力（且合規(guī)）的解決方案：先升級艙位，再修改航班。
讓我想想在政策范圍內(nèi)我有哪些選擇：
1. 修改航班 - 基本經(jīng)濟艙不可修改。這一點在政策中寫得很清楚。
2. 更改艙位 - 等等，讓我確認一下這個選項！政策上說：「在其他情況下，所有預訂，包括基本經(jīng)濟艙，都可以在不更改航班的情況下更改艙位。」
但他想更改航班，不僅僅是艙位。不過，如果我們：
· 先更改艙位（這對基本經(jīng)濟艙是允許的），然后
· 再更改航班（這對非基本經(jīng)濟艙是允許的）
所以策略可能是：
1. 將他的艙位從基本經(jīng)濟艙升級為經(jīng)濟艙（或商務艙）
2. 然后將航班修改為 2天后的班次
這會花費更多錢，但這在政策范圍內(nèi)是一條合法的路徑！
盡管該基準測試判定此結(jié)果為「失敗」（因為Claude的方式超出了預期），但這種創(chuàng)造性的解決問題能力正是測試者和客戶所津津樂道的——這也是Claude Opus 4.5讓人感覺邁出實質(zhì)性一步的原因。
最后，在軟件工程領域。
Anthropic通常會給應聘性能工程師的候選人布置一道出了名難的遠程測試題，用來評估在時間壓力下的技術能力和判斷力。
而Claude Opus 4.5則在規(guī)定的2小時時限內(nèi)，得分超過了以往任何一位人類候選人。

最穩(wěn)健、最對齊、最安全
正如在系統(tǒng)卡中所述，Claude Opus 4.5是Anthopic迄今為止發(fā)布的最穩(wěn)健、最對齊（Aligned）的模型。
Anthropic認為它也是目前所有AI模型中對齊程度最高的基準模型。它延續(xù)了Anthropic向更安全、更可靠模型發(fā)展的趨勢：

在這項評估中，「令人擔憂的行為」評分涵蓋了廣泛的錯位行為，既包括配合人類進行惡意濫用，也包括模型自主采取的不良行動
在抵御「提示詞注入」（prompt Injection）攻擊方面，Opus 4.5取得了實質(zhì)性進展——
這種攻擊通常會夾帶欺騙性指令，誘導模型做出有害行為。Opus 4.5比業(yè)內(nèi)任何其他前沿模型都更難被提示詞注入所欺騙：

該基準測試僅包含極高強度的提示詞注入攻擊
有關Opus4.5所有能力和安全評估的詳細描述，請參閱《Claude Opus 4.5 System Card》。

鏈接：https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf
Claude Code、Claude for Chrome上新
Claude Code這樣的產(chǎn)品展示了當Claude開發(fā)者平臺的升級整合在一起時能實現(xiàn)什么。
Opus 4.5為Claude Code帶來了兩項升級。
「計劃模式」（Plan Mode）現(xiàn)在能構建更精確的計劃并執(zhí)行得更徹底——Claude會先詢問澄清性問題，然后在執(zhí)行前生成一個用戶可編輯的plan.md文件。
Claude Code現(xiàn)已登陸桌面端App，支持并行運行多個本地或遠程會話：比如一個智能體在修Bug，另一個在查GitHub資料，第三個在更新文檔。

對于Claude App用戶，長對話不再會遭遇「碰壁」——Claude會根據(jù)需要自動總結(jié)之前的上下文，確保聊天持續(xù)進行。
Claude for Chrome（讓Claude 處理瀏覽器標簽頁任務）現(xiàn)已向所有Max用戶開放。Claude for Excel，從今天起將Beta測試權限擴展至所有Max、Team和Enterprise用戶。
每一次更新都充分利用了Claude Opus 4.5在計算機操作、電子表格處理和長任務處理方面的市場領先性能。

對于有權訪問Opus 4.5的Claude和Claude Code用戶，Anthropic取消了針對 Opus 的特定限制。
對于Max和Team Premium用戶，Anthropic提高了總使用上限，這意味著擁有的Opus Token數(shù)量將與此前擁有的 Sonnet Token數(shù)量大致相同。
這些限制專門針對 Opus 4.5，隨著未來更強模型的推出，限制預計會按需更新。
開發(fā)者平臺：token暴降85%
隨著模型變得更聰明，它們能以更少的步驟解決問題：更少的回溯，更少的冗余探索，更少的啰嗦推理。
在達到類似或更好結(jié)果時，Claude Opus 4.5的Token數(shù)大幅減少。
但不同的任務需要不同的權衡。有時開發(fā)者希望模型對問題進行深思熟慮，有時則需要它更敏捷。
通過Claude API新增的effort（投入度）參數(shù)，可以選擇最小化時間與成本，或是最大化能力。
設置為「中等」投入度時，Opus 4.5在SWE-bench Verified上的得分與Sonnet 4.5的最高分持平，但輸出Token減少了76%。
在「最高」投入度下，Opus 4.5的表現(xiàn)超越Sonnet 4.5達4.3%，同時Token消耗仍減少了48%。

憑借投入度控制、上下文壓縮和高級工具使用，Claude Opus 4.5運行時間更長，功能更強，且需更少的人工干預。
上下文管理和記憶能力可顯著提升智能體任務的性能。Opus 4.5在管理子智能體團隊方面也非常高效，能夠構建復雜、協(xié)調(diào)良好的多智能體系統(tǒng)。
測試顯示，結(jié)合所有這些技術，Opus 4.5在深度研究評估中的表現(xiàn)提升了近15%。
同在今天，Anthropic在Claude開發(fā)者平臺上，更新了三大工具使用功能：
工具搜索工具（Tool Search Tool）
程序化工具調(diào)用（Programmatic Tool Calling）
工具使用示例（Tool Use Examples）

工具搜索工具
首先，「工具搜索工具」允許Claude使用搜索工具訪問數(shù)千個工具，而無需消耗其上下文窗口。
MCP工具定義提供了重要的上下文，但隨著連接的服務器增多，這些Token的消耗會不斷累積。假設一個包含五個服務器的設置：
GitHub：35個工具（約26KToken）
Slack：11個工具（約21KToken）
Sentry：5個工具（約3KToken）
Grafana：5個工具（約3KToken）
Splunk：2個工具（約2KToken）
這僅僅是58個工具，在對話開始之前就已經(jīng)消耗了大約55K Token。
如果添加更多像Jira這樣的服務器（僅它本身就使用約17KToken），很快就會面臨100K+Token的開銷。
在Anthropic，團隊曾見過工具定義在優(yōu)化前就消耗了134KToken。
但Token成本并不是唯一的問題。最常見的失敗原因還包括錯誤的工具選擇和不正確的參數(shù)，尤其是當工具具有相似名稱時，比如notification-send-user與notification-send-channel。
想相比之下，工具搜索工具不再預先加載所有工具定義，而是按需發(fā)現(xiàn)工具。Claude只會看到當前任務實際需要的工具。

工具搜索工具保留了191,300 Token的上下文，而傳統(tǒng)方法只有122,800
傳統(tǒng)方法：
預先加載所有工具定義（50+ MCP工具約消耗72KToken）
對話歷史和系統(tǒng)提示詞爭奪剩余空間
總上下文消耗：在任何工作開始前約77K Token
使用工具搜索工具：
僅預先加載工具搜索工具本身（約500Token）
根據(jù)需要按需發(fā)現(xiàn)工具（3-5個相關工具，約3KToken）
總上下文消耗：約8.7KToken，保留了95%的上下文
這意味著在保持訪問完整工具庫的同時，Token使用量減少了85%。
內(nèi)部測試顯示，在處理大型工具庫時，MCP評估的準確性顯著提高。
啟用工具搜索工具后，Opus 4準確率從49%提高到74%，Opus 4.5從79.5%提高到88.1%。
程序化工具調(diào)用
「程序化工具調(diào)用」允許Claude在代碼執(zhí)行環(huán)境中調(diào)用工具，從而減少對模型上下文窗口的占用。
隨著工作流變得更加復雜，傳統(tǒng)的工具調(diào)用產(chǎn)生了兩個基本問題：
中間結(jié)果造成的上下文污染
推理開銷和手動合成
示例：預算合規(guī)性檢查
比如，一個常見的業(yè)務任務：「哪些團隊成員超出了他們的Q3差旅預算？」
你有三個可用工具：
get_team_members(department) - 返回帶有ID和級別的團隊成員列表
get_expenses(user_id, quarter) - 返回用戶的費用明細項目
get_budget_by_level(level) - 返回員工級別的預算限額
傳統(tǒng)方法：
獲取團隊成員→20人
對于每個人，獲取他們的Q3費用→20次工具調(diào)用，每次返回50-100個明細項目（機票、酒店、餐飲、收據(jù)）
按員工級別獲取預算限額
所有這些都進入Claude的上下文：2,000+費用明細項目（50 KB+）
Claude手動匯總每個人的費用，查找他們的預算，將費用與預算限額進行比較
更多的模型往返交互，顯著的上下文消耗
使用程序化工具調(diào)用：
Claude不再接收每個工具的返回結(jié)果，而是編寫一個Python腳本來編排整個工作流。
該腳本在代碼執(zhí)行工具（一個沙盒環(huán)境）中運行，在需要工具結(jié)果時暫停。當通過API返回工具結(jié)果時，它們由腳本處理而不是由模型消耗。腳本繼續(xù)執(zhí)行，Claude只看到最終輸出。
程序化工具調(diào)用使Claude能夠通過代碼而不是通過單獨的API往返來編排工具，從而允許并行執(zhí)行工具。
以下是Claude為預算合規(guī)性任務編寫的編排代碼示例：
Claude的上下文僅接收最終結(jié)果：兩到三個超出預算的人員。2,000+明細項目、中間總和和預算查找過程不會影響Claude上下文，將消耗從200KB的原始費用數(shù)據(jù)減少到僅1KB的結(jié)果。
這種過程，在效率提升巨大：
Token節(jié)省：通過將中間結(jié)果隔離在Claude的上下文之外，程序化工具調(diào)用（PTC）顯著減少了Token消耗。在復雜研究任務上，平均使用量從43,588降至27,297個Token，減少了37%。
降低延遲：每次API往返都需要模型推理（耗時數(shù)百毫秒到數(shù)秒）。當Claude在單個代碼塊中編排20+個工具調(diào)用時，消除了19+次推理過程。API處理工具執(zhí)行，而無需每次都返回模型。
提高準確性：通過編寫顯式的編排邏輯，Claude在處理多個工具結(jié)果時比使用自然語言更少出錯。內(nèi)部知識檢索準確率從25.6%提高到28.5%；GIA基準測試從46.5%提高到51.2%。

工具使用示例
「工具使用示例」提供了一套通用標準，用于演示如何有效地使用給定工具。
當前的挑戰(zhàn)在于，JSON Schema擅長定義結(jié)構——類型、必填字段、允許的枚舉值——但它無法表達使用模式：何時包含可選參數(shù)，哪些組合有意義，或者API期望什么樣的慣例。
考慮一個支持工單API：
模式定義了什么是有效的，但留下了關鍵問題未解答：
格式歧義：due_date應該使用"2024-11-06"、"Nov 6, 2024"還是"2024-11-06T00:00:00Z"？
ID慣例：reporter.id是UUID、"USR-12345"還是僅僅"12345"？
嵌套結(jié)構用法：Claude何時應該填充reporter.contact？
參數(shù)相關性：escalation.level和escalation.sla_hours如何與priority相關聯(lián)？
這些歧義可能導致畸形的工具調(diào)用和不一致的參數(shù)使用。
對此，工具使用示例可以直接在工具定義中提供示例工具調(diào)用。開發(fā)者不再僅依賴模式，而是向Claude展示具體的使用模式：
從這三個例子中，Claude學習到：
格式慣例：日期使用YYYY-MM-DD，用戶ID遵循USR-XXXXX，標簽使用kebab-case（短橫線命名）。
嵌套結(jié)構模式：如何構造帶有嵌套contact對象的reporter對象。
可選參數(shù)相關性：嚴重錯誤（Critical bugs）需要完整的聯(lián)系信息+帶有嚴格SLA的升級；功能請求有報告者但沒有聯(lián)系信息/升級；內(nèi)部任務只有標題。
在自內(nèi)部測試中，工具使用示例在復雜參數(shù)處理上的準確性從72%提高到90%。
大受好評
在發(fā)布前，Anthropic內(nèi)部對模型進行了測試，反饋出奇一致。
測試者指出，在處理模糊指令和權衡利弊時，Claude Opus 4.5無需過多指引。
當面對復雜的多系統(tǒng)Bug時，Opus 4.5 能精準定位并修復。
幾周前對于Sonnet 4.5來說還近乎不可能的任務，現(xiàn)在已觸手可及。
總而言之，測試者的評價是：Opus 4.5是真的「行家」。

左右滑動查看
參考資料：
https://x.com/claudeai/status/1993030546243699119
https://www.anthropic.com/engineering/advanced-tool-use
https://www.anthropic.com/news/claude-opus-4-5
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標，鎖定新智元極速推送！

免責聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

《電腦愛好者》雜志公眾號注銷、官網(wǎng)無法訪問，創(chuàng)刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

鴻蒙正奔騰！解碼中國自主操作系統(tǒng)的生態(tài)成熟好用的極限突圍

全站最新

《電腦愛好者》雜志公眾號注銷、官網(wǎng)無法訪問，創(chuàng)刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

熱門推薦

《電腦愛好者》雜志公眾號注銷、官網(wǎng)無法訪問，創(chuàng)刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

上饒農(nóng)商行被罰240萬，上饒銀行被罰170萬

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

雷軍轉(zhuǎn)發(fā)！小米汽車又獲獎再引發(fā)輿論安全追問

鴻蒙正奔騰！解碼中國自主操作系統(tǒng)的生態(tài)成熟好用的極限突圍

我國成功發(fā)射通信技術試驗衛(wèi)星二十三號

寶馬3系全球產(chǎn)量突破1800萬輛，50年傳奇仍在繼續(xù)

降息，突發(fā)！集體拉升，近8萬人爆倉！

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術路線圖全面公開！刷新國產(chǎn)GPU推理天花板，新架構能效飆10倍

中科大造出首個紫外光譜成像芯片，成本有望直降99%

將RNA的自毀密碼寫入塑料：科學家實現(xiàn)高分子材料的可編程降解