Anthropic發布Claude Opus 4.5：強化編碼與長任務處理

IP屬地中國·北京 IT之家 時間：2025-11-25 08:14:54

IT之家 11 月 25 日消息，當地時間周一，Anthropic 宣布推出其最新 AI 模型“Claude Opus 4.5”，定位為一款在編碼、智能體以及計算機操作方面表現領先的通用模型，并在深度研究、演示文稿處理以及電子表格任務上實現了實質性提升。
據官方介紹，這一版本不僅是對現有能力的推進，也預示著未來工作方式將出現更廣泛的變化。

在軟件工程相關測試中，Claude Opus 4.5 達當前最先進水平。該模型已在 Anthropic 應用、API 以及三大云平臺開放使用，開發者可通過 Claude API 使用 claude-opus-4-5-20251101 版本。其輸入輸出定價分別為 5 美元（IT之家注：現匯率約合 35.6 元人民幣）和 25 美元（現匯率約合 177.8 元人民幣）每百萬 tokens，旨在讓更多個人用戶、團隊與企業能夠使用到 Opus 級別的能力。
與此同時，公司也更新了 Claude Developer Platform、Claude Code 以及面向消費者的應用，加入支持更長時間運行的智能體工具，并擴展了 Claude 在 Excel、Chrome 以及桌面端的使用方式。對于應用用戶而言，長對話不再受長度限制，系統會自動總結舊內容以持續展開聊天。
性能評估：超過所有人類測試者
Anthropic 表示，它會讓性能工程崗位候選人完成一項難度極高的居家測試，同時也將這一測試用于模型內部評估。在規定的兩小時限時內，Claude Opus 4.5 的得分超過了歷來所有人類候選人。
這項測試旨在考察技術能力與壓力下的判斷力，但并不涉及協作或長期經驗等其他能力。
盡管如此，這一表現引發了關于 AI 將如何改變工程職業的討論。Anthropic 的“社會影響與經濟未來”研究團隊正關注此類變化，并計劃公布更多成果。

IT之家注意到，Claude Opus 4.5 在視覺、推理與數學方面也取得了顯著進步，在多個領域達到行業先進水平。
在真實任務基準中表現突出
在用于衡量智能體能力的 τ2-bench 基準中，模型需模擬航空公司服務人員處理客戶訴求。
開發者設定的“標準答案”是必須拒絕修改“基礎經濟艙”機票，但 Claude Opus 4.5 給出了一個在規則允許范圍內的替代方案 —— 先升級艙位，再變更航班。
模型在推理時引用政策內容并提出解決策略，例如：
“在其他情況下，所有預訂（包括基礎經濟艙）都可以在不更改航班的情況下更改艙位。”
并進一步指出可先升級到經濟艙或商務艙，再調整出行日期。這種方式雖增加費用，但符合航空公司條款。

該案例被判定為失敗，因為它未遵循預設路徑，但 Anthropic 表示，這類“有洞察力的解決方案”正是測試者與用戶感受到的進步。
公司也指出，某些情境下類似行為可能被視為“獎勵規避”（reward hacking），因此相關防范是安全測試的重要內容。
安全性提升
Anthropic 表示，Claude Opus 4.5 是其迄今對齊程度最高的模型，并推測其對齊水平在行業前沿模型中也處于領先位置。為應對客戶在關鍵任務中的使用需求，該版本進一步強化了對提示注入攻擊的防御能力，能更有效避免欺騙性指令的影響。

開發者平臺更新
隨著模型能力增強，其任務執行步驟減少，推理過程中的回溯與冗余也更少，從而降低 token 消耗。開發者可通過 Claude API 中新增的 effort（投入度）參數，在速度、成本與能力之間進行調節。
在中等 effort 設置下，Opus 4.5 與 Sonnet 4.5 在 SWE-bench Verified 上達到相近分數，但輸出 token 使用量減少 76%；在最高 effort 設置中，其得分比 Sonnet 4.5 高出 4.3 個百分點，同時減少 48% 的輸出 token。

公司表示，在“努力控制、上下文壓縮與高級工具使用”的組合下，Opus 4.5 在深度研究評估中性能提升近 15 個百分點。此外，其在管理子智能體方面表現良好，可用于構建協調性更高的多智能體系統。
產品更新
在 Claude Code 中，Opus 4.5 帶來兩項升級：Plan Mode 現在會先通過提問澄清需求，再生成可編輯的 plan.md 文件并執行任務；此外，Claude Code 已登陸桌面應用，可同時運行多個本地與遠程會話。
消費者應用方面，Claude 現在可自動總結對話上下文以支持更長的交流內容。Claude for Chrome 已向所有 Max 用戶開放，而 Claude for Excel 也擴展到 Max、Team 與 Enterprise 用戶的測試權限。
對于擁有 Opus 4.5 權限的 Claude 與 Claude Code 用戶，公司已取消該模型的特定使用上限；Max 與 Team Premium 用戶的總體額度也有所提升，以確保滿足日常工作需求。公司表示，未來隨著新模型發布，相關限制可能繼續調整。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

117家工作站，378場活動、10萬+人次！這份年度科創科普“答卷”亮了

驟降4000米　“星鏈”一顆衛星或爆炸失聯

菜鳥九識聯手發力萬億城配市場：從“萬元機”看無人車的普及之戰

Pixel用戶集體吐槽：谷歌強塞AI功能破壞使用體驗

【量子城市】聚勢未來：上海復興島舉辦全球創客島創新孵化與量子城市空間智能建設交流研討

首篇，系統盤點擴散模型高危漏洞！看懂攻擊方式和防御體系

全站最新

117家工作站，378場活動、10萬+人次！這份年度科創科普“答卷”亮了

驟降4000米　“星鏈”一顆衛星或爆炸失聯

菜鳥九識聯手發力萬億城配市場：從“萬元機”看無人車的普及之戰

Pixel用戶集體吐槽：谷歌強塞AI功能破壞使用體驗

熱門推薦

2025第六屆鯨潮獎頒獎盛典舉辦，評選結果重磅揭曉！

2025鯨V獎頒獎盛典落地，評選結果重磅公布！

2025全年動畫電影票房突破250億

117家工作站，378場活動、10萬+人次！這份年度科創科普“答卷”亮了

驟降4000米　“星鏈”一顆衛星或爆炸失聯

菜鳥九識聯手發力萬億城配市場：從“萬元機”看無人車的普及之戰

Pixel用戶集體吐槽：谷歌強塞AI功能破壞使用體驗

【量子城市】聚勢未來：上海復興島舉辦全球創客島創新孵化與量子城市空間智能建設交流研討

首篇，系統盤點擴散模型高危漏洞！看懂攻擊方式和防御體系

谷歌AI逆襲背后的頭號功臣

業界：以生態之力跨越“達爾文之海” 推動科研成果加速應用

【特稿】美國簽證審查嚴重拖長　谷歌和蘋果建議外籍員工“別出美國”

俞敏洪自嘲成為“道歉哥”：一天到晚在道歉

德國法院裁決亞馬遜不得強迫Prime Video會員看廣告

AI寫的歌、畫的圖，版權算誰的？

首頁

資訊

財經號

智能車

專題

電商資訊

人物資訊

滾動資訊

首頁

新科技

新金融

新零售

智能車

房地產

科技探索

人物資訊

網絡游戲

人工智能

Anthropic發布Claude Opus 4.5：強化編碼與長任務處理