文 | 山自
就在今天凌晨,AI領域迎來了一場足以改寫行業格局的重磅發布!Anthropic正式推出其旗艦模型Claude Opus 4.5,以令人震驚的定價策略和突破性的性能表現,在大模型戰場上投下了一枚"核彈"。這不僅是技術迭代,更是一場深刻的市場革命——API調用成本直降三分之二,在嚴格的軟件工程測試中歷史性地超越所有人類工程師,標志著AI技術正式邁入一個全新的發展階段。
頂級AI能力進入普惠時代
Anthropic此次的定價調整堪稱"毀滅性打擊"。具體來看,Opus 4.5的輸入token價格從之前的每百萬15美元驟降至5美元,輸出token價格從75美元暴跌至25美元,整體降幅達到了驚人的67%!這一價格水平甚至讓許多競爭對手的中端模型都顯得黯然失色。
更值得關注的是,Anthropic同時宣布了一系列普惠性政策:32K上下文窗口現在完全免費開放,此前需要額外付費的"無限對話"功能也向所有付費用戶全面開放。這意味著開發者和企業用戶現在可以用更低的成本,享受到更強大的AI能力。
![]()
Anthropic產品負責人Scott White在接受CNBC專訪時表示:"我們真切地希望確保這項技術能夠為所有想要使用這些模型的人真正發揮作用。我們的核心關注點始終是:如何讓Claude更好地幫助您完成那些在工作中不一定想親自處理的任務?"
編碼能力首次超越人類專家
在最具權威性和挑戰性的SWE-bench Verified測試中,Opus 4.5取得了80.9%的驚人成績。這一表現不僅顯著超越了OpenAI剛剛發布的GPT-5.1-Codex-Max(77.9%)和谷歌上周推出的Gemini 3 Pro(76.2%),更在Anthropic內部最嚴格的工程能力測試中創造了新的歷史記錄。
![]()
"在我們規定的2小時時限內,Claude Opus 4.5的得分高于任何人類候選人",Anthropic在官方博客中鄭重宣布。這項測試原本是為選拔頂級性能工程師而設計的,專門評估候選人在時間壓力下的技術能力和專業判斷力。
![]()
雖然公司方面謹慎地表示,這項測試并不衡量候選人可能具備的其他關鍵技能,如協作、溝通或多年經驗形成的本能,但這一里程碑式的結果無疑引發了業界對"AI將如何重塑工程技術行業"的深度思考。
智能與成本的完美平衡
Opus 4.5引入了創新的"努力參數"(effort parameter)機制,讓開發者能夠在性能與成本之間找到最佳平衡點。這一設計充分體現了Anthropic對實際應用場景的深刻理解。
具體數據顯示,在中等努力水平設置下,Opus 4.5能夠匹配Sonnet 4.5在SWE-bench Verified上的最佳表現,同時輸出token使用量減少了76%。而在高等努力水平下,Opus 4.5的性能比Sonnet 4.5高出4.3個百分點,同時token使用量仍減少48%。
這種效率提升在實際企業應用中產生了顯著效果。GitHub首席產品官Mario Rodriguez證實:"早期測試顯示,Opus 4.5在內部編碼基準測試中表現卓越,同時將token使用量減半,特別適合代碼遷移和代碼重構等復雜任務。"
Replit總裁Michele Catasta進一步補充道:"Opus 4.5在我們的內部基準測試中擊敗了Sonnet 4.5和競爭對手,同時使用更少的token解決相同問題。在規模應用中,這種效率優勢將產生復合效應。"
AI智能體學會自主優化
更令人驚嘆的是,Opus 4.5展現出了前所未有的自我優化能力。日本電商巨頭樂天公司的測試結果令人震驚:基于Opus 4.5的AI代理僅用4次迭代就達到了峰值性能,而其他模型即使經過10次迭代仍無法達到同等質量水平。
樂天商業AI總經理Yusuke Kaji表示:"我們的代理能夠自主優化自身能力——在4次迭代中就達到了峰值性能,而其他模型即使在10次迭代后也無法匹配這種質量。"
Anthropic的Albert解釋說,這種能力并非模型在更新自身的權重參數,而是在迭代改進解決問題的工具和方法。"它在一個任務中迭代優化某項技能,試圖通過優化技能來獲得更好的性能,從而完成這個任務。"
這種自我進化能力不僅限于編碼任務。Albert表示,Anthropic在創建專業文檔、電子表格和演示文稿等方面也觀察到了顯著的改進。"測試者告訴我們,這是他們在模型代際之間見過的最大的飛躍,甚至從Sonnet 4.5到Opus 4.5的進步,比過去任何兩個連續模型之間的進步都要大。"
全面升級的工作流集成
伴隨著模型的重磅發布,Anthropic同步推出了一系列生產力工具的重大更新:
Claude for Chrome現已全面向所有Max用戶開放,實現了真正的跨瀏覽器智能操作能力。用戶現在可以在瀏覽器標簽頁中無縫使用Claude的各項功能,大大提升了工作效率。
Claude for Excel正式面向Max、Team和Enterprise用戶發布,新增了對數據透視表、圖表分析和文件上傳等高級功能的支持。這意味著財務分析師、顧問和會計師等知識工作者現在可以更高效地處理復雜的數據分析任務。
桌面版Claude Code現在支持本地與云端開發會話的并行運行,為開發者提供了前所未有的靈活性。同時,新引入的"程序化工具調用"功能允許Claude直接編寫和執行代碼來調用函數,極大地擴展了其自動化能力。
企業級防護能力全面提升
在安全性能方面,Opus 4.5展現了顯著的進步。根據Anthropic發布的系統卡數據,新模型在抵御提示注入攻擊方面的穩健性大幅提升:
在單次提示注入攻擊測試中,Opus 4.5的成功率僅為4.7%,遠低于Gemini 3 Pro的12.5%和GPT-5.1的12.6%。即使在10次攻擊嘗試下,成功率也控制在33.6%,相比競爭對手的60.7%和58.2%有了明顯改善。
![]()
在代理編碼評估中,Opus 4.5對150個惡意編碼請求的拒絕率達到了100%,展現了出色的安全防護能力。不過,在Claude Code環境下測試惡意軟件創建、DDoS攻擊代碼編寫等場景時,模型的拒絕率約為78%,而在計算機使用場景中的拒絕率超過88%,這說明在特定環境下仍需保持警惕。
開發生態:為下一代AI應用奠基
Anthropic此次還對Claude開發者平臺進行了重要升級。增強的上下文管理和內存功能使代理任務性能提升了近15%,而新的多代理協調能力讓構建復雜AI系統變得更加可行。
![]()
這些改進在實際應用中已經產生了顯著效果。金融建模公司Fundamental Research Labs聯合創始人Nico Christie報告稱:"在我們內部的評估中,準確率提高了20%,效率提升了15%,曾經看似無法完成的復雜任務現在變得可以實現了。"
Cursor CEO Michael Truell評價道:"Opus 4.5相比之前的Claude模型在Cursor內部有了顯著改進,在困難編碼任務上具有更好的定價和智能表現。"Cognition CEO Scott Wu補充說:"該模型在我們最困難的評估中提供了更強結果,并在30分鐘自主編碼會話中保持了一致的性能。"
AI民主化進程加速
此次發布正值AI競爭進入白熱化階段——OpenAI在上周剛剛推出GPT-5.1系列,谷歌的Gemini 3也才亮相七天。Anthropic在短短兩個月內完成了Haiku、Sonnet、Opus三個產品線的迭代更新,展現了驚人的研發速度和技術積累。
更令人印象深刻的是,Anthropic在2025年第一季度實現了20億美元的年化收入,較前期的10億美元翻了一番。年消費超過10萬美元的客戶數量同比增長了八倍,這充分顯示了市場對其技術的高度認可。
Albert坦言,這種快速的發布節奏部分得益于使用Claude來加速自身開發。"我們在實際產品構建和模型研究方面都看到了Claude本身的很多協助和加速作用。"
當AI在專業工程測試中開始系統性超越人類專家,我們正站在一個歷史性的轉折點上。Claude Opus 4.5的發布不僅代表了技術的突破,更預示著工作方式的根本性變革。這一刻,我們見證的不僅是另一個AI模型的發布,而是智能計算新時代的開啟。





京公網安備 11011402013531號