![]()
新智元報道
編輯:KingHZ
AI是否已撞上天花板?這份「最重要的圖表」直擊靈魂:2019-2025年任務時長每幾個月翻倍,揭示編碼智能體從「短跑選手」向「馬拉松冠軍」的華麗蛻變。AGI不是夢,而是觸手可及的現實!
2025年就要結束了,原來真正的高手,隱藏在「民間」!
不是谷歌、不是OpenAI,是Anthropic王者編程模型Claude Opus 4.5。
![]()
在METR最新公布報告稱,Claude Opus 4.5已能夠持續自主編碼「長達5小時不崩」。
就連OpenAI最強編程模型——GPT-5.1-Codex-Max也甘拜下風。
![]()
現如今,全網都在為Claude Opus 4.5編碼實力震撼。
![]()
![]()
![]()
AI編碼智能體能處理的任務時長不僅在指數級增長——其增速還在持續提升!
2019-2024年:任務時長每7個月翻一倍
2024-2025年:任務時長每4個月翻一倍
![]()
很多人第一次看到這條曲線,會本能地搖頭。
有人不理解。有人不愿意接受。
但一個事實越來越清晰:AI編碼智能體能連續完成的任務,正在從「分鐘級」沖向「小時級」,并且加速度還在上升。
網友認為這是關于AI最重要的圖表:
![]()
這張圖為什么被稱為「最重要的圖表」?
因為它在回應一個關鍵的問題:
AI是否撞墻了?AGI是不是另一個烏托邦?2025年,AI到底進步了多少?
普通用戶感知不強,很正常。對大多數人來說,模型早就能應付日常提問:
「推薦部電影」「解釋這個概念」「寫段文案」。
但真正的變化發生在另一條戰線上:編碼智能體。
而這恰恰是多數人(包括記者與政策制定者)難以觸及的形態。
這些進展看似微小,但累積起來卻意義非凡。
![]()
2026年4月,首批AI智能體將能獨立完成一個完整的人類工作日;
2026年底,AI能完成半周的任務量;
2027年底,AI能完成2個月的任務量;
2028年底,AI能完成人類好幾個月的工作量;
到2030年,AI能承擔一些小型企業或組織的大部分管理工作。
AI指數級增長
智能體時代已來
為了量化比較AI與人類能力,今年3月METR提出了一個新指標:50%任務完成時間跨度(50%-task-completion time horizon)。
換句話,把AI當新人:給它一項工作,看它做到「50%的概率能做成」時,這項工作的人類平均耗時有多久。
GPT-5.1-Codex-Max,已能完成長達2小時53分鐘的軟件工程任務(成功率50%),能力較o1提升4倍。
而Claude Opus 4.5的50%時間跨度約為4小時49分鐘。這已是迄今為止公布的最長的時間跨度。
![]()
盡管50%任務完成時間跨度較長,但Opus 4.5模型的80%時間跨度僅為27分鐘,與過往模型表現相當,且低于GPT-5.1-Codex-Max模型的32分鐘。
![]()
但Opus 4.5在50%與80%時間跨度之間的差距,反映出它的邏輯成功率曲線更為平緩,這意味著Opus模型在耗時較長的任務上具有差異化優勢。
甚至有人認為,Claude Code已足夠接近通用人工智能的定義。
![]()
最后這個說法或許夸張——卻折射出某種現實。
2025年堪稱AI討論最混沌的一年,實際進展與輿論焦點之間的裂痕從未如此巨大。
但明年或將迎來轉變——當編碼智能體的影響力滲透至社會經濟各個角落時,人們終將目睹它的威力。但愿到那時,我們還能來得及做好充分準備。
AGI逼近
記憶成最后關卡
智能體能把任務做得越來越久,并不奇怪。
此前的研究普遍指向四大原因:
推理更強:能把大任務拆成小任務
工具更熟:會寫代碼、會查網頁、會跑腳本
自糾錯更穩:出錯后能回滾、能重試、能繼續推進
收益非遞減:變準一點點,能做的任務跨度會暴增
![]()
例如,新一代模型能更好地規劃子任務、調用外部工具(如代碼編寫、網頁瀏覽)并在出錯時自我糾正,從而在長達數小時的任務鏈條中保持高成功率。
當然,在暢想美好前景的同時,我們也要看到目前的局限。
但當任務跨度從「小時」走向「工作日」,新的麻煩會冒出來:
上下文會丟:越做越忘前面說過什么
偏差會積累:小錯誤滾成大災難
目標會漂移:做著做著就跑題
說到底,它們都指向同一個核心:長期記憶。
![]()
記憶:通往AGI的最后難題
AI幾乎所有能力短板,最后都會牽扯到記憶。
你可以把當前大模型想成:一個極聰明、反應極快,但「下班就失憶」的新人。
它能寫代碼、能推理、能寫文章。 但會話一結束,它幾乎不記得自己做過什么。
現在很多智能體的「記憶」,主要靠兩種拼裝:
強檢索工具:需要時去搜(像在代碼庫里 grep)
總結壓縮塞進上下文:把過去內容壓成幾段話,再喂回去
雖然信息檢索技術已有不小進展,但即便是當前最優秀的RAG(檢索增強生成)系統,其準確率也只有約90%。
不斷擴大的上下文窗口,確實在改善這個問題:更大的窗口意味著可以將更多數據同時輸入模型,從而支持模型更有效地在龐大的記憶索引中「閱讀」。
但即便如此,要達到AGI級別的「細致入微」的記憶水平,仍然需要在底層架構上突破。
而且,更大的問題是:沒有任何系統真正實現了「自我學習」。
![]()
沒有長期記憶,AI就無法像人一樣「越用越聰明」,無法從錯誤中學習,更談不上積累「常識」和「智慧」。
僅僅「記住」還不夠,智能體必須能從經驗中主動「學習」。
與智能體不同,人類大腦擅長將短期經歷轉化為長期記憶,在日積月累中形成知識網絡和經驗教訓。
![]()
AGI若想達到人類智能的廣度與深度,同樣需要這樣的記憶系統。
業界普遍認為,記憶是通用智能最后但最關鍵的一塊拼圖。
換言之,AI現有的「算力」和「智力」,或許已逼近AGI所需,唯一欠缺的是像人一樣擁有持久而豐富的記憶。
誰能最先破解「記憶難題」,誰就將在這場AGI競賽中占據決定性優勢。
明年的突破
長期被動記憶
現在的智能體擁有非常強大的「搜索」,比如使用Cursor時,你會發現它幾乎能完美從整個代碼庫中檢索信息。
但它們用的依然是「主動記憶」機制:智能體需要自己去「找」記憶,而不是這些記憶自然存在于它的思維中。
這遠遠不夠。
一個運行文本搜索工具grep的智能體,不等于擁有有效記憶的智能體。就像一個計算器并不等于一個數學家。
![]()
給智能體一個「搜索記憶工具」不是解決方案。
那么,真正強大的AI記憶系統需要具備什么?
真正的記憶,必須是像人類一樣,無需檢索、直接知道。
而目前的被動記憶機制還非常原始,一旦任務復雜度稍微提升,就會徹底崩塌,智能體又回到「全靠搜索」的狀態。
紐約通用智能公司創始人Andrew Pignanelli預期,未來12個月AI行業會在「被動記憶系統」上取得顯著進展。
![]()
在接下來的一年中,記憶系統(尤其是智能體的學習能力)將成為AI世界的核心議題,并被正式確認為通向AGI的最后一步。
OpenAI成功推出ChatGPT記憶功能后,Claude近期已跟進,而其他各大模型公司也將紛紛完善自家記憶系統。
長期記憶工具的接入體驗將顯著提升,尤其隨著上下文窗口的持續擴展;
「睡眠時間智能體」會在你不知情的情況下,閱讀你的郵件、文件和表格,構建背景知識和個性化記憶;
「實時智能體」將在檢索信息方面趨近完美,你的偏好、語言風格、行為習慣都會被快速融入其中。
短期內,自動注入上下文的方式還不會特別自然,為了更準確的記憶檢索,大家普遍都會接受「響應更慢」的現實。
但隨著AI變得越來越「懂你」,你對AI的依賴也會越來越強。
在消費者端,人們可能注意到「對話開始前有點卡」,但不知道背后是一個龐大的記憶系統在默默運行。
到今年年底,「上下文腐爛」問題(context rot)也將被攻克,方式包括:
啟用「遺忘機制」;
專為長期對話設計的上下文清理系統;
更先進的「上下文檢索」技術(能從巨大信息堆中精準抽出關鍵內容)
未來,用戶將不再通過文件樹導航信息,而是由AI智能體直接幫你檢索和訪問所需數據。像Replit和Lovable這樣的代碼生成平臺已經在這方面先行一步。
明年春天(2026年)很可能出現由「新一代多模態大模型」與「注意力機制之外的記憶系統」結合帶來的突破。
未來12個月內,「記憶+學習」領域可能會出現突破性進展。
OpenAI等領軍團隊都在全力攻關持續學習和自我記憶技術;一旦他們取得突破,并將其應用在頂尖模型上,我們也許會驚呼:AGI已經出現了。
AGI曙光已現
綜合當前的發展態勢,可以說:AGI已不再是遙不可及的科幻夢想,而可能近在咫尺。
這種預測并非無穴來風。
回顧過去一年,我們多次低估了AI進化的速度。
GPT-5雖然發布時評價褒貶不一,但其實在長任務執行方面比前代有了大幅提高;Claude 4.5的驚艷表現,更是證明了進步的非線性:當關鍵技術取得突破時,曲線會突然躍升。
如今,你可以在網上了解到,隨著機器智能成為首要的生產要素,正在涌現出新型組織。
這是首次,這一新要素為我們人類提供了改進流程本身的思路。依靠AI,微型團隊,竟能產出超越過去數十人甚至上百人團隊的工作成果,尤其是在某些專注的軟件領域,生產力增長令人震驚。
這種爆發式的效率,真的很難不讓人感到興奮。
這是某種意義上的「阿特拉斯卸下重擔」的時刻,是智能生產力「起飛」的征兆。
與2023年那種詩意盎然的「AI覺醒敘事」相比,如今的這一切,顯得更平實務實,但更加震撼,更加真實。
如果記憶問題迎來解決,AI能力或將再次爆發。
![]()
屆時,AI智能體將不僅僅是無休止重復勞作的「工具」,而會變成越用越聰明、與您一同成長的「數字同事」。
它能記住你的偏好。
它能記住你踩過的坑。
它能從項目里提煉經驗。
然后在下一次合作里,主動幫你把效率再推高一截。
這正是許多人對AGI在人類社會角色的愿景。
參考資料:
https://www.oneusefulthing.org/p/real-ai-agents-and-real-work
https://www.generalintelligencecompany.com/writing/memory-is-the-last-problem-to-solve-to-reach-agi
https://www.shippingapps.dev/writings/memory-last-problem
https://x.com/tszzl/status/2002488418887168297
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!





京公網安備 11011402013531號