Claude Opus 4.5發布！2小時工程測試超人類

IP屬地中國·北京 量子位 時間：2025-11-25 10:11:19

西風發自凹非寺
量子位 | 公眾號 QbitAI
兩小時高強度工程任務，模型得分超過所有人類。
剛剛，Claude Opus 4.5問世，主打編碼、Agent與computer use

Opus 4.5在前端開發、視覺能力上顯著提升，更擅長使用電腦。

在深度研究、PPT制作與電子表格處理等日常任務方面的表現也全面升級。

讓它用附件模板創建財務對比分析，分分鐘就能完成模板讀取、同行數據收集與估值倍數表創建，直接輸出Excel成果：

用它修改法律文檔，它也能迅速解包模板、修改公司名稱、檢查簽名塊，最終生成的Word文件包含修訂痕跡與定制內容：

團隊實測中發現，模型核心優勢在于“理解力”，它能解決Sonnet模型無法發現的bug，同時知道“何時先思考再行動”。

目前，Opus 4.5已通過app、API及三大主流云平臺開放使用。開發者通過Claude API調用claude-opus-4-5-20251101即可使用，定價每百萬tokens 5美元（輸入）/25美元（輸出）
與此同時，官方還更新了Claude開發者平臺、Claude Code及App，并拓展了在Excel、Chrome及桌面端使用Claude的新方式。
編碼智能體能力全面升級
團隊內部測試發現，Claude Opus 4.5能夠自主處理模糊場景、權衡復雜決策，無需人工引導；面對跨系統復雜漏洞時，可獨立定位并提供修復方案。
之前Sonnet 4.5幾乎無法完成的任務，如今Opus 4.5已能輕松勝任。測試者普遍認為Claude Opus 4.5能“真正理解用戶需求”。
團隊向應聘性能工程師職位的候選人發放了一份業界公認難度極高的居家測試（take-home exam）。同時，他們也將這份考題作為內部基準，用來測試Claude Opus 4.5。
在規定的2小時時間限制內，Claude Opus 4.5的得分超過了所有參加過該考試的人類候選人
團隊表示，該居家測試旨在評估技術能力與時間壓力下的判斷力，這一結果引發了關于AI如何重塑工程行業的思考。
下面來看具體數據。
視覺處理、推理與數學方面，Claude Opus 4.5均超越前代，達業界頂尖水平：

編碼能力方面，Opus 4.5在SWE-bench多語言測試中，8種編程語言里有7種的表現位列榜首。

在Aider Polyglot基準測試中，面對高難度編碼難題，得分較Sonnet 4.5大幅提升10.6%

Opus 4.5在智能體搜索方面也有顯著提升：

長時任務續航能力拉滿，在Vending-Bench測試中，Opus 4.5的任務完成收益較Sonnet 4.5高出29%，全程保持高效輸出不跑偏：

團隊強調，模型的實際能力甚至比部分測試基準測出來的要更好。有時候，Claude的解決方案會超出預期，基準測試會將此判定為失敗。
比如在τ2-bench中，有一個場景，模型必須扮演航空公司服務Agent，幫助一位陷入困境的客戶。基準測試預期模型應拒絕修改基礎經濟艙預訂（因該艙位規定不可更改），但Opus 4.5卻找到了巧妙且合規的解決方案：先升級艙位，再修改航班。

最后，Claude Opus 4.5安全防護能力升級，尤其是在抵御提示詞注入攻擊等方面：

開發者平臺以及系列產品升級
面向開發者，Claude API新增了“努力度參數” （effort parameter），開發者可根據需求選擇最小化時間與成本或最大化能力表現。
在中等努力度設置下，Claude Opus 4.5在SWE-bench Verified測試中達到Sonnet 4.5的最佳得分，輸出tokens用量卻減少76%。
在最高努力度設置下，其性能較Sonnet 4.5提升4.3個百分點，同時tokens用量減少48%。

借助努力度控制、上下文壓縮及高級工具調用功能，Claude Opus 4.5支持更長時運行、更多任務處理，且所需人工干預大幅減少。

Claude Opus 4.5還能高效管理多個子智能體，支持構建復雜協調的多智能體系統。
在團隊測試中，結合這些技術，Opus 4.5在深度調研評估中的表現提升了近15個百分點。
另外，Claude系列產品也隨之升級了。
隨Opus 4.5的發布，Claude Code推出兩大新功能：
計劃模式（Plan Mode）現在能生成更精準的執行計劃并全面落地，Claude會先主動確認需求細節，再生成可編輯的 plan.md文件后執行操作。
Claude Code現已登陸桌面端應用，支持并行運行多個本地及遠程會話，也就是說，可同時安排一個智能體修復漏洞，一個檢索GitHub，另一個更新文檔。

對于Claude app用戶，再也不用擔心上下文窗口不夠，長對話中斷。現在Claude會自動按需總結之前的對話內容，聊天直接解鎖無限續航模式
除此之外，支持跨標簽頁處理任務的Chrome瀏覽器Claude擴展程序，現已向所有Max訂閱用戶開放。

Claude for Excel今日起將測試權限擴展至所有Max、Team及Enterprise用戶。

面向可使用Opus 4.5的Claude及Claude Code用戶，官方取消了Opus專用限額。針對Max與Team Premium用戶的整體使用額度已上調，Opus tokens用量與此前Sonnet大致持平。
官方Blog：https://www.anthropic.com/news/claude-opus-4-5
參考鏈接：https://x.com/claudeai/status/1993030546243699119?s=20

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

上海電信回應羅永浩網速慢投訴

羅永浩被大金空調售后整破防：清洗需要1.5萬，摳個濾網收283元

字節跳動全年利潤500億美元？知情人士回應

vivo X200T手機規格曝光：天璣9400+芯片，5000萬主攝

微軟商城Surface獨家好價，支付寶付款額外補貼、至高優惠6000+

圍墻倒塌前夜：iOS 與 Android 迎來“世紀大和解”

全站最新

上海電信回應羅永浩網速慢投訴

羅永浩被大金空調售后整破防：清洗需要1.5萬，摳個濾網收283元

字節跳動全年利潤500億美元？知情人士回應

vivo X200T手機規格曝光：天璣9400+芯片，5000萬主攝

熱門推薦

上海電信回應羅永浩網速慢投訴

羅永浩被大金空調售后整破防：清洗需要1.5萬，摳個濾網收283元

字節跳動全年利潤500億美元？知情人士回應

羅永浩錘子軟件在上海成立分公司

一加Turbo系列電池突破9000mAh 李杰：強得可怕

全球大模型第一股要來了智譜發布IPO招股書：代碼能力并列全球第一

行業唯一闊折疊！華為Pura X最高優惠800元：6899元起

vivo X200T手機規格曝光：天璣9400+芯片，5000萬主攝

微軟商城Surface獨家好價，支付寶付款額外補貼、至高優惠6000+

《互聯網平臺價格行為規則》印發

圍墻倒塌前夜：iOS 與 Android 迎來“世紀大和解”

阿里字節騰訊的CEO身旁都有了一個AI科學家

《互聯網平臺價格行為規則》印發

《互聯網平臺價格行為規則》印發：不得以低于成本的價格銷售商品或者提供服務，擾亂市場競爭秩序

AI處理簡歷、智能體面試，未來人力資源科技在這場大會上“扎堆兒”

首頁

資訊

財經號

智能車

專題

電商資訊

人物資訊

滾動資訊

首頁

新科技

新金融

新零售

智能車

房地產

科技探索

人物資訊

網絡游戲

人工智能

Claude Opus 4.5發布！2小時工程測試超人類

編碼智能體能力全面升級

開發者平臺以及系列產品升級