在追求大模型“高智商”的同時(shí),AI 的持續(xù)執(zhí)行能力正成為衡量其進(jìn)化水平的新維度。根據(jù)人工智能研究機(jī)構(gòu)METR發(fā)布的最新基準(zhǔn)測(cè)試,Anthropic 旗下的頂級(jí)模型Claude Opus4.5在處理超長(zhǎng)時(shí)間任務(wù)方面展現(xiàn)出了統(tǒng)治級(jí)實(shí)力。
測(cè)試結(jié)果顯示,Claude Opus4.5在維持50% 成功率的前提下,能夠持續(xù)處理長(zhǎng)達(dá)約 4小時(shí)49分鐘 的復(fù)雜任務(wù),這一表現(xiàn)刷新了行業(yè)歷史記錄。所謂的“時(shí)間分辨率”指標(biāo),揭示了模型在不同難度挑戰(zhàn)下的耐力邊界:在面對(duì)簡(jiǎn)單任務(wù)(80% 成功率)時(shí),它僅需27分鐘即可完成;而一旦進(jìn)入高難度、高耗時(shí)的深水區(qū),Opus4.5的優(yōu)勢(shì)便被無(wú)限放大。
AIbase 注意到,雖然測(cè)試數(shù)據(jù)中出現(xiàn)了模型理論上可連續(xù)工作超過(guò)20小時(shí)的數(shù)值,但METR坦言這可能受限于樣本量較小而產(chǎn)生的誤差。盡管如此,這一突破依然標(biāo)志著 AI 正在從“短指令回復(fù)者”向“長(zhǎng)程項(xiàng)目執(zhí)行者”轉(zhuǎn)型。
然而,也有專(zhuān)家對(duì)該測(cè)試的局限性提出了質(zhì)疑。目前 METR 僅涵蓋了14個(gè)樣本,且有觀(guān)點(diǎn)認(rèn)為這種基準(zhǔn)測(cè)試可能被模型針對(duì)性地“刷分”。但不可否認(rèn)的是,Claude Opus4.5的出現(xiàn),確實(shí)為需要高強(qiáng)度、長(zhǎng)時(shí)程邏輯支撐的 AGI 任務(wù)提供了新的可能性。





京公網(wǎng)安備 11011402013531號(hào)