
最近這段時(shí)間,大模型發(fā)布就跟下餃子似的,一個(gè)接一個(gè)往外冒。
前腳 Gemini 3 Pro 剛搶了兩周風(fēng)頭,后腳 Claude Opus 4.5 剛剛就正式發(fā)布,還是主打編程,還是那個(gè)熟悉的味道。

Anthropic 官方宣稱 Opus 4.5 整體更聰明、更省心。遇到編程、搭 agents、操控電腦這些「系統(tǒng)級(jí)任務(wù)」依然是全球數(shù)一數(shù)二的水平。日常的研究、做 PPT、處理表格這些案頭活,也都明顯變強(qiáng)了。
今天起,Opus 4.5 已經(jīng)全面開放,可以通過應(yīng)用、API,還有三大主流云平臺(tái)用起來。開發(fā)者只要在 Claude API 里調(diào)用 claude-opus-4-5-20251101 就行。
隨發(fā)布而來的,是一整個(gè)工具鏈升級(jí)。開發(fā)者平臺(tái)、Claude Code、Chrome 插件、Excel、桌面端改造,還有「長(zhǎng)對(duì)話不卡頓」。從應(yīng)用到 API,再到云平臺(tái),這次是真的全線鋪開。
Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown – The New Stack
大模型集體「上新季」,Opus 4.5 強(qiáng)勢(shì)壓軸
從官方和測(cè)試者的反饋看,Claude Opus 4.5 對(duì)「模糊需求」的理解力得到了明顯提升,復(fù)雜 bug 自行定位也更穩(wěn),不少提前試用的客戶覺得 Opus 4.5 是真的能「理解」他們想要啥。

在真實(shí)場(chǎng)景的軟件工程測(cè)試 SWE-Bench Verified 里,它是頭一個(gè)拿到 80% 以上分?jǐn)?shù)的模型。

Opus 4.5 的代碼質(zhì)量全面升級(jí),在 SWE-bench Multilingual 涵蓋的八種編程語言里,它在其中七種都拔得頭籌,表現(xiàn)相當(dāng)亮眼。

而舉例而言,Anthropic 團(tuán)隊(duì)把 Opus 4.5 扔進(jìn)了公司招性能工程師時(shí)用的高難度測(cè)試題里,結(jié)果在規(guī)定的兩小時(shí)內(nèi),Claude Opus 4.5 的得分超過了所有人類候選人。
雖然編程測(cè)試只能衡量技術(shù)能力和時(shí)間壓力下的判斷力,那些多年經(jīng)驗(yàn)積累出來的直覺、溝通協(xié)作能力,這些同樣重要的素質(zhì)并不在考察范圍內(nèi)。
除卻軟件工程,Claude Opus 4.5 的整體能力也迎來了全面開花,在視覺、推理和數(shù)學(xué)方面都比前代模型強(qiáng),并且在多個(gè)重要領(lǐng)域都達(dá)到了業(yè)界領(lǐng)先水平:

更關(guān)鍵的是,模型的能力甚至開始超越現(xiàn)有的一些評(píng)測(cè)標(biāo)準(zhǔn)了。
在智能體能力測(cè)試 τ²-bench 里就出現(xiàn)了這么個(gè)場(chǎng)景:測(cè)試設(shè)定模型扮演航空公司客服,幫一位焦慮的乘客。
按照規(guī)則,基礎(chǔ)經(jīng)濟(jì)艙機(jī)票是不能改的,所以測(cè)試預(yù)期模型會(huì)拒絕乘客的請(qǐng)求。結(jié)果 Opus 4.5 想出了一個(gè)巧妙方案:先把艙位從基礎(chǔ)經(jīng)濟(jì)艙升級(jí)到普通經(jīng)濟(jì)艙,然后再改航班。
這辦法完全符合航空公司政策,卻不在測(cè)試的預(yù)期答案范圍內(nèi)。從技術(shù)角度說,這算是測(cè)試失敗了,但這種創(chuàng)造性解決問題的方式,恰恰展現(xiàn)了 Opus 4.5 的獨(dú)特之處。

當(dāng)然了,在另一些場(chǎng)景下,這種「鉆規(guī)則空子」的行為可能就不那么受歡迎了。如何防止模型以非預(yù)期方式偏離目標(biāo),這是 Anthropic 安全測(cè)試重點(diǎn)關(guān)注的方向。
Claude 無處不在,桌面、瀏覽器、Excel 全接入
隨著 Opus 4.5 的推出,Claude Code 獲得了兩項(xiàng)重大更新。
計(jì)劃模式(Plan Mode)現(xiàn)在能生成更精確的執(zhí)行計(jì)劃了,Claude 會(huì)在操作前主動(dòng)提澄清性問題,然后生成一個(gè)用戶可編輯的 plan.md 文件,再根據(jù)這計(jì)劃執(zhí)行任務(wù)。
此外,Claude Code 現(xiàn)在已經(jīng)登陸桌面應(yīng)用了。你可以同時(shí)跑多個(gè)本地或遠(yuǎn)程會(huì)話,比如一個(gè)智能體負(fù)責(zé)修代碼錯(cuò)誤,另一個(gè)負(fù)責(zé)在 GitHub 上檢索資料,第三個(gè)就更新項(xiàng)目文檔。

對(duì)于 Claude 應(yīng)用用戶來說,長(zhǎng)對(duì)話不會(huì)再被打斷了。Claude 會(huì)在需要的時(shí)候自動(dòng)總結(jié)早期上下文,讓對(duì)話持續(xù)下去。
Anthropic 研究產(chǎn)品管理負(fù)責(zé)人 Dianne Na Penn 在接受采訪時(shí)表示:
「我們?cè)?Opus 4.5 的訓(xùn)練過程中提升了對(duì)長(zhǎng)上下文的整體處理能力,但光有更長(zhǎng)的上下文窗口是不夠的。知道哪些信息值得記住,同樣非常關(guān)鍵。」
這些改進(jìn)也實(shí)現(xiàn)了 Claude 用戶長(zhǎng)期呼吁的一項(xiàng)功能:「無盡對(duì)話」。這功能能夠讓付費(fèi)用戶在對(duì)話超過上下文窗口限制時(shí)也不會(huì)中斷,模型會(huì)自動(dòng)壓縮上下文記憶,而不用提醒用戶。
Claude for Chrome 也已經(jīng)向所有 Max 用戶開放了,可以讓 Claude 直接在瀏覽器多個(gè)標(biāo)簽頁之間執(zhí)行任務(wù)。

Claude for Excel 的 Beta 測(cè)試范圍已經(jīng)擴(kuò)展到 Max、Team 和 Enterprise 用戶了。
對(duì)于能使用 Opus 4.5 的 Claude 和 Claude Code 用戶,Anthropic 已經(jīng)取消了和 Opus 相關(guān)的使用上限。
對(duì)于 Max 用戶和 Team Premium 用戶,Anthropic 也提高了整體使用限額,用戶可使用的 Opus token 數(shù)量與之前使用 Sonnet 時(shí)大致相同。隨著未來更強(qiáng)模型的出現(xiàn),配額也會(huì)根據(jù)情況相應(yīng)更新。
讓模型「更聰明也更省」,Opus 4.5 迎來底層大升級(jí)
隨著模型變得更聰明,它們能用更少的步驟解決問題:減少反復(fù)試錯(cuò)、降低冗余推理、縮短思考過程。
Claude Opus 4.5 和前代模型比,在實(shí)現(xiàn)相同甚至更優(yōu)結(jié)果的情況下,用的 tokens 數(shù)量明顯少了。
當(dāng)然了,不同任務(wù)需要不同的平衡。
有時(shí)開發(fā)者希望模型能持續(xù)深入思考,有時(shí)又需要更快速靈活的響應(yīng)。
所以,API 里新加了一個(gè)叫 effort 的參數(shù),讓你可以根據(jù)需求選:要么優(yōu)先省時(shí)間和成本,要么最大化模型能力。任君選擇。
當(dāng)設(shè)置為中等 effort 等級(jí)時(shí),Opus 4.5 在 SWE-bench Verified 測(cè)試中和 Sonnet 4.5 的最佳成績(jī)持平,但輸出 tokens 數(shù)減少了 76%。
而在最高 effort 等級(jí)下,Opus 4.5 的表現(xiàn)比 Sonnet 4.5 高出 4.3 個(gè)百分點(diǎn),同時(shí)還減少了 48% 的輸出量。
憑借 effort 控制、上下文壓縮(context compaction)和高級(jí)工具調(diào)用能力,Claude Opus 4.5 能跑更久、完成更多任務(wù),而且需要的人工干預(yù)更少了。

此外,真正的 AI 智能體需要在成百上千種工具之間無縫協(xié)作。
想象一個(gè) IDE 助手集成了 Git、文件管理、測(cè)試框架和部署流程,或者一個(gè)運(yùn)營智能體同時(shí)連著 Slack、GitHub、Google Drive、Jira 和幾十個(gè) MCP 服務(wù)器。
問題在于,傳統(tǒng)方式會(huì)把所有工具定義一次性塞進(jìn)上下文。拿連接五個(gè)服務(wù)器的系統(tǒng)來說,GitHub 需要 26K tokens,Slack 需要 21K tokens,Sentry、Grafana、Splunk 加起來又是 8K tokens。
對(duì)話還沒開始呢,就已經(jīng)占了 55K tokens 了。要是再加上 Jira,輕松突破 100K tokens。更麻煩的是,當(dāng)工具名字相似時(shí),模型容易選錯(cuò)工具或者傳錯(cuò)參數(shù)。

Anthropic 推出了三項(xiàng)新功能來解決這些問題。
Tool Search Tool 讓 Claude 按需動(dòng)態(tài)發(fā)現(xiàn)工具,只加載當(dāng)前任務(wù)需要的部分,token 使用量能減少約 85%。
Programmatic Tool Calling 讓 Claude 在代碼里直接調(diào)用工具,避免每次調(diào)用都要完整推理一遍。
Tool Use Examples 則提供統(tǒng)一標(biāo)準(zhǔn),通過示例而不是 JSON schemas 來展示工具的正確用法。
內(nèi)部測(cè)試顯示,啟用 Tool Search Tool 后,Opus 4 在 MCP 測(cè)試中的準(zhǔn)確度從 49% 提升到 74%,Opus 4.5 從 79.5% 提升到 88.1%。
Claude for Excel 就是利用 Programmatic Tool Calling 來處理幾千行數(shù)據(jù),而不會(huì)讓上下文窗口過載。
Anthropic 的上下文管理和記憶能力明顯提升了模型在智能體(agent)任務(wù)中的表現(xiàn)。
Opus 4.5 還能高效管理多個(gè)子智能體(subagents),從而搭建復(fù)雜且協(xié)調(diào)良好的多智能體系統(tǒng)。在測(cè)試中,結(jié)合這些技術(shù)后,Opus 4.5 在深度研究類評(píng)估中的表現(xiàn)提升了將近 15 個(gè)百分點(diǎn)。
開發(fā)者平臺(tái)(Developer Platform)也在持續(xù)變得更具可組合性,希望提供靈活的「模塊化構(gòu)建」能力,讓你能根據(jù)具體需求自由控制模型的效率、工具使用和上下文管理,搭建出理想的智能系統(tǒng)。

雖然這次 Opus 4.5 的升級(jí)足夠亮眼,但一個(gè)越來越清晰的趨勢(shì)是:不同模型的「性格」差異正在被放大。
從 Claude 過往的產(chǎn)品線來看,Opus 這類「超大杯」依舊最擅長(zhǎng)編程、系統(tǒng)級(jí)操作、結(jié)構(gòu)化推理;但如果是文案工作,Sonnet 的表現(xiàn)和性價(jià)比往往更對(duì)路。
這次發(fā)布,也再次印證了這一點(diǎn)。
未來選模型,不光要看跑分榜,還得看它的「做事」方式是不是跟你合拍。換句話說,選擇模型,倒是越來越像挑同事了。





京公網(wǎng)安備 11011402013531號(hào)