IT之家 11 月 25 日消息,當地時間周一,Anthropic 宣布推出其最新 AI 模型“Claude Opus 4.5”,定位為一款在編碼、智能體以及計算機操作方面表現領先的通用模型,并在深度研究、演示文稿處理以及電子表格任務上實現了實質性提升。
據官方介紹,這一版本不僅是對現有能力的推進,也預示著未來工作方式將出現更廣泛的變化。
![]()
在軟件工程相關測試中,Claude Opus 4.5 達當前最先進水平。該模型已在 Anthropic 應用、API 以及三大云平臺開放使用,開發者可通過 Claude API 使用 claude-opus-4-5-20251101 版本。其輸入輸出定價分別為 5 美元(IT之家注:現匯率約合 35.6 元人民幣)和 25 美元(現匯率約合 177.8 元人民幣)每百萬 tokens,旨在讓更多個人用戶、團隊與企業能夠使用到 Opus 級別的能力。
與此同時,公司也更新了 Claude Developer Platform、Claude Code 以及面向消費者的應用,加入支持更長時間運行的智能體工具,并擴展了 Claude 在 Excel、Chrome 以及桌面端的使用方式。對于應用用戶而言,長對話不再受長度限制,系統會自動總結舊內容以持續展開聊天。
性能評估:超過所有人類測試者
Anthropic 表示,它會讓性能工程崗位候選人完成一項難度極高的居家測試,同時也將這一測試用于模型內部評估。在規定的兩小時限時內,Claude Opus 4.5 的得分超過了歷來所有人類候選人。
這項測試旨在考察技術能力與壓力下的判斷力,但并不涉及協作或長期經驗等其他能力。
盡管如此,這一表現引發了關于 AI 將如何改變工程職業的討論。Anthropic 的“社會影響與經濟未來”研究團隊正關注此類變化,并計劃公布更多成果。
![]()
IT之家注意到,Claude Opus 4.5 在視覺、推理與數學方面也取得了顯著進步,在多個領域達到行業先進水平。
在真實任務基準中表現突出
在用于衡量智能體能力的 τ2-bench 基準中,模型需模擬航空公司服務人員處理客戶訴求。
開發者設定的“標準答案”是必須拒絕修改“基礎經濟艙”機票,但 Claude Opus 4.5 給出了一個在規則允許范圍內的替代方案 —— 先升級艙位,再變更航班。
模型在推理時引用政策內容并提出解決策略,例如:
“在其他情況下,所有預訂(包括基礎經濟艙)都可以在不更改航班的情況下更改艙位。”
并進一步指出可先升級到經濟艙或商務艙,再調整出行日期。這種方式雖增加費用,但符合航空公司條款。
![]()
該案例被判定為失敗,因為它未遵循預設路徑,但 Anthropic 表示,這類“有洞察力的解決方案”正是測試者與用戶感受到的進步。
公司也指出,某些情境下類似行為可能被視為“獎勵規避”(reward hacking),因此相關防范是安全測試的重要內容。
安全性提升
Anthropic 表示,Claude Opus 4.5 是其迄今對齊程度最高的模型,并推測其對齊水平在行業前沿模型中也處于領先位置。為應對客戶在關鍵任務中的使用需求,該版本進一步強化了對提示注入攻擊的防御能力,能更有效避免欺騙性指令的影響。
![]()
![]()
開發者平臺更新
隨著模型能力增強,其任務執行步驟減少,推理過程中的回溯與冗余也更少,從而降低 token 消耗。開發者可通過 Claude API 中新增的 effort(投入度)參數,在速度、成本與能力之間進行調節。
在中等 effort 設置下,Opus 4.5 與 Sonnet 4.5 在 SWE-bench Verified 上達到相近分數,但輸出 token 使用量減少 76%;在最高 effort 設置中,其得分比 Sonnet 4.5 高出 4.3 個百分點,同時減少 48% 的輸出 token。
![]()
公司表示,在“努力控制、上下文壓縮與高級工具使用”的組合下,Opus 4.5 在深度研究評估中性能提升近 15 個百分點。此外,其在管理子智能體方面表現良好,可用于構建協調性更高的多智能體系統。
產品更新
在 Claude Code 中,Opus 4.5 帶來兩項升級:Plan Mode 現在會先通過提問澄清需求,再生成可編輯的 plan.md 文件并執行任務;此外,Claude Code 已登陸桌面應用,可同時運行多個本地與遠程會話。
消費者應用方面,Claude 現在可自動總結對話上下文以支持更長的交流內容。Claude for Chrome 已向所有 Max 用戶開放,而 Claude for Excel 也擴展到 Max、Team 與 Enterprise 用戶的測試權限。
對于擁有 Opus 4.5 權限的 Claude 與 Claude Code 用戶,公司已取消該模型的特定使用上限;Max 與 Team Premium 用戶的總體額度也有所提升,以確保滿足日常工作需求。公司表示,未來隨著新模型發布,相關限制可能繼續調整。





京公網安備 11011402013531號