當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

編程測(cè)試碾壓人類！Claude Opus 4.5深夜突襲，AI編程進(jìn)入超人時(shí)代

IP屬地中國·北京 編輯：吳婷愛范兒 時(shí)間：2025-11-25 08:06:23

最近這段時(shí)間，大模型發(fā)布就跟下餃子似的，一個(gè)接一個(gè)往外冒。
前腳 Gemini 3 Pro 剛搶了兩周風(fēng)頭，后腳 Claude Opus 4.5 剛剛就正式發(fā)布，還是主打編程，還是那個(gè)熟悉的味道。
Anthropic 官方宣稱 Opus 4.5 整體更聰明、更省心。遇到編程、搭 agents、操控電腦這些「系統(tǒng)級(jí)任務(wù)」依然是全球數(shù)一數(shù)二的水平。日常的研究、做 PPT、處理表格這些案頭活，也都明顯變強(qiáng)了。
今天起，Opus 4.5 已經(jīng)全面開放，可以通過應(yīng)用、API，還有三大主流云平臺(tái)用起來。開發(fā)者只要在 Claude API 里調(diào)用 claude-opus-4-5-20251101 就行。
隨發(fā)布而來的，是一整個(gè)工具鏈升級(jí)。開發(fā)者平臺(tái)、Claude Code、Chrome 插件、Excel、桌面端改造，還有「長(zhǎng)對(duì)話不卡頓」。從應(yīng)用到 API，再到云平臺(tái)，這次是真的全線鋪開。
Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown – The New Stack
大模型集體「上新季」，Opus 4.5 強(qiáng)勢(shì)壓軸
從官方和測(cè)試者的反饋看，Claude Opus 4.5 對(duì)「模糊需求」的理解力得到了明顯提升，復(fù)雜 bug 自行定位也更穩(wěn)，不少提前試用的客戶覺得 Opus 4.5 是真的能「理解」他們想要啥。
在真實(shí)場(chǎng)景的軟件工程測(cè)試 SWE-Bench Verified 里，它是頭一個(gè)拿到 80% 以上分?jǐn)?shù)的模型。
Opus 4.5 的代碼質(zhì)量全面升級(jí)，在 SWE-bench Multilingual 涵蓋的八種編程語言里，它在其中七種都拔得頭籌，表現(xiàn)相當(dāng)亮眼。
而舉例而言，Anthropic 團(tuán)隊(duì)把 Opus 4.5 扔進(jìn)了公司招性能工程師時(shí)用的高難度測(cè)試題里，結(jié)果在規(guī)定的兩小時(shí)內(nèi)，Claude Opus 4.5 的得分超過了所有人類候選人。
雖然編程測(cè)試只能衡量技術(shù)能力和時(shí)間壓力下的判斷力，那些多年經(jīng)驗(yàn)積累出來的直覺、溝通協(xié)作能力，這些同樣重要的素質(zhì)并不在考察范圍內(nèi)。
除卻軟件工程，Claude Opus 4.5 的整體能力也迎來了全面開花，在視覺、推理和數(shù)學(xué)方面都比前代模型強(qiáng)，并且在多個(gè)重要領(lǐng)域都達(dá)到了業(yè)界領(lǐng)先水平：
更關(guān)鍵的是，模型的能力甚至開始超越現(xiàn)有的一些評(píng)測(cè)標(biāo)準(zhǔn)了。
在智能體能力測(cè)試 τ²-bench 里就出現(xiàn)了這么個(gè)場(chǎng)景：測(cè)試設(shè)定模型扮演航空公司客服，幫一位焦慮的乘客。
按照規(guī)則，基礎(chǔ)經(jīng)濟(jì)艙機(jī)票是不能改的，所以測(cè)試預(yù)期模型會(huì)拒絕乘客的請(qǐng)求。結(jié)果 Opus 4.5 想出了一個(gè)巧妙方案：先把艙位從基礎(chǔ)經(jīng)濟(jì)艙升級(jí)到普通經(jīng)濟(jì)艙，然后再改航班。
這辦法完全符合航空公司政策，卻不在測(cè)試的預(yù)期答案范圍內(nèi)。從技術(shù)角度說，這算是測(cè)試失敗了，但這種創(chuàng)造性解決問題的方式，恰恰展現(xiàn)了 Opus 4.5 的獨(dú)特之處。
當(dāng)然了，在另一些場(chǎng)景下，這種「鉆規(guī)則空子」的行為可能就不那么受歡迎了。如何防止模型以非預(yù)期方式偏離目標(biāo)，這是 Anthropic 安全測(cè)試重點(diǎn)關(guān)注的方向。
Claude 無處不在，桌面、瀏覽器、Excel 全接入
隨著 Opus 4.5 的推出，Claude Code 獲得了兩項(xiàng)重大更新。
計(jì)劃模式（Plan Mode）現(xiàn)在能生成更精確的執(zhí)行計(jì)劃了，Claude 會(huì)在操作前主動(dòng)提澄清性問題，然后生成一個(gè)用戶可編輯的 plan.md 文件，再根據(jù)這計(jì)劃執(zhí)行任務(wù)。
此外，Claude Code 現(xiàn)在已經(jīng)登陸桌面應(yīng)用了。你可以同時(shí)跑多個(gè)本地或遠(yuǎn)程會(huì)話，比如一個(gè)智能體負(fù)責(zé)修代碼錯(cuò)誤，另一個(gè)負(fù)責(zé)在 GitHub 上檢索資料，第三個(gè)就更新項(xiàng)目文檔。
對(duì)于 Claude 應(yīng)用用戶來說，長(zhǎng)對(duì)話不會(huì)再被打斷了。Claude 會(huì)在需要的時(shí)候自動(dòng)總結(jié)早期上下文，讓對(duì)話持續(xù)下去。
Anthropic 研究產(chǎn)品管理負(fù)責(zé)人 Dianne Na Penn 在接受采訪時(shí)表示：
「我們?cè)?Opus 4.5 的訓(xùn)練過程中提升了對(duì)長(zhǎng)上下文的整體處理能力，但光有更長(zhǎng)的上下文窗口是不夠的。知道哪些信息值得記住，同樣非常關(guān)鍵。」
這些改進(jìn)也實(shí)現(xiàn)了 Claude 用戶長(zhǎng)期呼吁的一項(xiàng)功能：「無盡對(duì)話」。這功能能夠讓付費(fèi)用戶在對(duì)話超過上下文窗口限制時(shí)也不會(huì)中斷，模型會(huì)自動(dòng)壓縮上下文記憶，而不用提醒用戶。
Claude for Chrome 也已經(jīng)向所有 Max 用戶開放了，可以讓 Claude 直接在瀏覽器多個(gè)標(biāo)簽頁之間執(zhí)行任務(wù)。
Claude for Excel 的 Beta 測(cè)試范圍已經(jīng)擴(kuò)展到 Max、Team 和 Enterprise 用戶了。
對(duì)于能使用 Opus 4.5 的 Claude 和 Claude Code 用戶，Anthropic 已經(jīng)取消了和 Opus 相關(guān)的使用上限。
對(duì)于 Max 用戶和 Team Premium 用戶，Anthropic 也提高了整體使用限額，用戶可使用的 Opus token 數(shù)量與之前使用 Sonnet 時(shí)大致相同。隨著未來更強(qiáng)模型的出現(xiàn)，配額也會(huì)根據(jù)情況相應(yīng)更新。
讓模型「更聰明也更省」，Opus 4.5 迎來底層大升級(jí)
隨著模型變得更聰明，它們能用更少的步驟解決問題：減少反復(fù)試錯(cuò)、降低冗余推理、縮短思考過程。
Claude Opus 4.5 和前代模型比，在實(shí)現(xiàn)相同甚至更優(yōu)結(jié)果的情況下，用的 tokens 數(shù)量明顯少了。
當(dāng)然了，不同任務(wù)需要不同的平衡。
有時(shí)開發(fā)者希望模型能持續(xù)深入思考，有時(shí)又需要更快速靈活的響應(yīng)。
所以，API 里新加了一個(gè)叫 effort 的參數(shù)，讓你可以根據(jù)需求選：要么優(yōu)先省時(shí)間和成本，要么最大化模型能力。任君選擇。
當(dāng)設(shè)置為中等 effort 等級(jí)時(shí)，Opus 4.5 在 SWE-bench Verified 測(cè)試中和 Sonnet 4.5 的最佳成績(jī)持平，但輸出 tokens 數(shù)減少了 76%。
而在最高 effort 等級(jí)下，Opus 4.5 的表現(xiàn)比 Sonnet 4.5 高出 4.3 個(gè)百分點(diǎn)，同時(shí)還減少了 48% 的輸出量。
憑借 effort 控制、上下文壓縮（context compaction）和高級(jí)工具調(diào)用能力，Claude Opus 4.5 能跑更久、完成更多任務(wù)，而且需要的人工干預(yù)更少了。
此外，真正的 AI 智能體需要在成百上千種工具之間無縫協(xié)作。
想象一個(gè) IDE 助手集成了 Git、文件管理、測(cè)試框架和部署流程，或者一個(gè)運(yùn)營智能體同時(shí)連著 Slack、GitHub、Google Drive、Jira 和幾十個(gè) MCP 服務(wù)器。
問題在于，傳統(tǒng)方式會(huì)把所有工具定義一次性塞進(jìn)上下文。拿連接五個(gè)服務(wù)器的系統(tǒng)來說，GitHub 需要 26K tokens，Slack 需要 21K tokens，Sentry、Grafana、Splunk 加起來又是 8K tokens。
對(duì)話還沒開始呢，就已經(jīng)占了 55K tokens 了。要是再加上 Jira，輕松突破 100K tokens。更麻煩的是，當(dāng)工具名字相似時(shí)，模型容易選錯(cuò)工具或者傳錯(cuò)參數(shù)。
Anthropic 推出了三項(xiàng)新功能來解決這些問題。
Tool Search Tool 讓 Claude 按需動(dòng)態(tài)發(fā)現(xiàn)工具，只加載當(dāng)前任務(wù)需要的部分，token 使用量能減少約 85%。
Programmatic Tool Calling 讓 Claude 在代碼里直接調(diào)用工具，避免每次調(diào)用都要完整推理一遍。
Tool Use Examples 則提供統(tǒng)一標(biāo)準(zhǔn)，通過示例而不是 JSON schemas 來展示工具的正確用法。
內(nèi)部測(cè)試顯示，啟用 Tool Search Tool 后，Opus 4 在 MCP 測(cè)試中的準(zhǔn)確度從 49% 提升到 74%，Opus 4.5 從 79.5% 提升到 88.1%。
Claude for Excel 就是利用 Programmatic Tool Calling 來處理幾千行數(shù)據(jù)，而不會(huì)讓上下文窗口過載。
Anthropic 的上下文管理和記憶能力明顯提升了模型在智能體（agent）任務(wù)中的表現(xiàn)。
Opus 4.5 還能高效管理多個(gè)子智能體（subagents），從而搭建復(fù)雜且協(xié)調(diào)良好的多智能體系統(tǒng)。在測(cè)試中，結(jié)合這些技術(shù)后，Opus 4.5 在深度研究類評(píng)估中的表現(xiàn)提升了將近 15 個(gè)百分點(diǎn)。
開發(fā)者平臺(tái)（Developer Platform）也在持續(xù)變得更具可組合性，希望提供靈活的「模塊化構(gòu)建」能力，讓你能根據(jù)具體需求自由控制模型的效率、工具使用和上下文管理，搭建出理想的智能系統(tǒng)。
雖然這次 Opus 4.5 的升級(jí)足夠亮眼，但一個(gè)越來越清晰的趨勢(shì)是：不同模型的「性格」差異正在被放大。
從 Claude 過往的產(chǎn)品線來看，Opus 這類「超大杯」依舊最擅長(zhǎng)編程、系統(tǒng)級(jí)操作、結(jié)構(gòu)化推理；但如果是文案工作，Sonnet 的表現(xiàn)和性價(jià)比往往更對(duì)路。
這次發(fā)布，也再次印證了這一點(diǎn)。
未來選模型，不光要看跑分榜，還得看它的「做事」方式是不是跟你合拍。換句話說，選擇模型，倒是越來越像挑同事了。

標(biāo)簽：模型工具能力編程 系統(tǒng) 智能 經(jīng)濟(jì)艙 方式用戶 時(shí)代 官方 技術(shù) 代碼全面框架亮眼 基礎(chǔ) 超人 航空公司 結(jié)果 規(guī)則 解決問題 開發(fā)者 時(shí)間 人類碾壓 業(yè)界 壓軸 計(jì)劃 桌面問題 時(shí)

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

華為云城市峰會(huì)在烏蘭察布召開，當(dāng)?shù)匾盐?7個(gè)數(shù)據(jù)中心項(xiàng)目

火山引擎的「火」，是怎么點(diǎn)起來的

馬斯克：非自動(dòng)駕駛?cè)加蛙嚱K將消亡最終的競(jìng)爭(zhēng)力是智能化

XREAL 1S發(fā)布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

歐洲頂尖神經(jīng)學(xué)家：中國為科學(xué)家提供“絕佳機(jī)遇”

“元寶AI自動(dòng)回復(fù)太像真人”引質(zhì)疑騰訊為其發(fā)聲

全站最新

華為云城市峰會(huì)在烏蘭察布召開，當(dāng)?shù)匾盐?7個(gè)數(shù)據(jù)中心項(xiàng)目

火山引擎的「火」，是怎么點(diǎn)起來的

馬斯克：非自動(dòng)駕駛?cè)加蛙嚱K將消亡最終的競(jìng)爭(zhēng)力是智能化

XREAL 1S發(fā)布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

熱門推薦

普路通收購標(biāo)的業(yè)績(jī)均顯下滑趨勢(shì)，停牌前提前大漲32%復(fù)牌上演“天地板”

追覓創(chuàng)始人俞浩擬22.8億元入主嘉美包裝，原股東方承諾5年業(yè)績(jī)“護(hù)航”要約

寒武紀(jì)增資至4.22億

大曉機(jī)器人正式發(fā)布行業(yè)首創(chuàng)的ACE具身研發(fā)范式

賽力斯公布車輛轉(zhuǎn)向防碰撞專利

邢自強(qiáng)：中國在人工智能上的投資十分有效

華為云城市峰會(huì)在烏蘭察布召開，當(dāng)?shù)匾盐?7個(gè)數(shù)據(jù)中心項(xiàng)目

火山引擎的「火」，是怎么點(diǎn)起來的

馬斯克：非自動(dòng)駕駛?cè)加蛙嚱K將消亡最終的競(jìng)爭(zhēng)力是智能化

XREAL 1S發(fā)布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

歐洲頂尖神經(jīng)學(xué)家：中國為科學(xué)家提供“絕佳機(jī)遇”

“元寶AI自動(dòng)回復(fù)太像真人”引質(zhì)疑騰訊為其發(fā)聲

2035年去月球“上班”！青年科學(xué)家蘇萌描繪未來圖景

中國氣象局：到2035年全面建成數(shù)值預(yù)報(bào)與人工智能優(yōu)勢(shì)互補(bǔ)、融合統(tǒng)一的地球系統(tǒng)預(yù)報(bào)體系

電動(dòng)巴士訂單排滿明年，比亞迪計(jì)劃在巴西擴(kuò)建