![]()
上周,扎克伯格宣布,meta 的目標是實現超越人類智能的人工智能(AI)。為此,其試圖以九位數天價薪酬為 meta 超智能實驗室招攬頂尖研究者;同時計劃專注于構建能夠自我改進的 AI,這類系統能通過自我迭代持續提升性能水平。
自我改進的可能性使人工智能與其他革命性技術有所區分,比如 CRISPR 無法自行改進其對 DNA 序列的靶向能力,聚變反應堆也無法自行解決如何使該技術實現商業化的難題。但大型語言模型(LLM)可以優化其運行的計算機芯片,以更便宜、更高效的方式訓練其他 LLM,甚至可能提出人工智能研究的原創性想法。
在扎克伯格看來,AI 自我改進或將締造一個人類擺脫日常勞役、在卓越的人工伙伴協助下追求崇高理想的世界。
OpenAI、Anthropic 和谷歌都在其人工智能安全框架中提到了自我改進的 AI 研究,與化學武器和網絡安全等更為熟悉的風險類別并列。但他們也提到,自我改進的 AI 研發亦能帶來巨大收益。僅憑人類自身智慧,或許永遠無法構想出能讓 AI 最終攻克癌癥與氣候變化等世紀難題的創新方案。
目前人類智慧仍是 AI 進步的核心驅動力——若非如此,meta 也不會斥巨資招攬超智能實驗室的研究者。
以下是 AI 實現自我改進的五大路徑。
![]()
提升生產效率
“最重要的事情是編碼輔助”。 一家人工智能研究非營利組織 Forethought 的高級研究助理 Tom Davidson 表示。
諸如 Claude Code 和 Cursor 這樣輔助編碼的工具在整個 AI 行業很受歡迎。谷歌首席執行官 Sundar Pichai 在 2024 年 10 月聲稱,該公司四分之一的新代碼是由 AI 生成的,而 Anthropic 最近也記錄了其員工使用 Claude Code 的多種方式。如果工程師因為這種編碼輔助工具而提高了生產力,他們將能夠更快地設計、測試和部署新的人工智能系統。
然而,這些工具帶來的效率提升仍存在不確定性。如果工程師花費大量時間修正 AI 系統生成的錯誤代碼,即便手動編寫代碼的時間減少,他們的整體工作量可能并未增加。
METR 近期的一項研究發現,開發者在使用 AI 編程助手時,完成任務所需時間延長了約 20%。不過該研究的聯合負責人、METR 技術團隊成員 Nate Rush 指出,該研究僅針對經驗豐富的開發者處理大型代碼庫的情況,其結論可能不適用于編寫實驗腳本的 AI 研究者。
Rush 表示,在尖端 AI 實驗室內部進行類似研究,或許能更清晰地揭示編程助手是否真正提升了前沿 AI 研究者的效率,但目前尚未開展此類研究。與此同時,僅憑軟件工程師的主觀感受并不可靠:METR 的研究對象認為 AI 編程工具提高了他們的效率,但實際上,這些工具反而顯著拖慢了他們的工作進度。
![]()
基礎設施優化
如果代碼編寫完成后需要等待數小時、數天甚至數周才能運行,那么快速編碼的優勢就會大打折扣。尤其是 LLM 的訓練過程極其緩慢,最復雜的推理模型可能需要數分鐘才能生成一個回答。斯坦福大學助理教授、DeepMind 高級科學家 Azalia Mirhoseini 指出,這些延遲是 AI 發展的主要瓶頸?!叭绻芗涌?AI 的運行速度,我們就能實現更多創新 ”。
正因如此,Mirhoseini 一直利用 AI 優化 AI 芯片。早在 2021 年,她與谷歌的同事合作開發了一套非 LLM 的 AI 系統,能夠決定計算機芯片上各組件的布局以優化效率。盡管其他一些研究者未能復現該研究結果,但 Mirhoseini 表示,Nature雜志對該論文進行了調查并確認其有效性;她還指出,谷歌已將該系統的設計用于多代定制 AI 芯片。
最近,Mirhoseini 開始運用 LLM 解決內核編寫問題。內核是控制芯片中矩陣乘法等運算的低級函數。她發現,在某些情況下,即使是通用 LLM 編寫的內核,其運行速度也能超越人類設計的版本。
在谷歌的其他部門,科學家們開發了一套名為 AlphaEvolve 的系統,用于優化公司 LLM 基礎設施的多個環節。AlphaEvolve 設計了一種新的數據中心運行方案,為谷歌節省了 0.7% 的計算資源;此外,它還進一步優化了谷歌的定制芯片設計,并開發出一種新內核,將 Gemini 的訓練速度提升了 1%。
這一提升看似微小,但對谷歌這樣的巨頭而言,意味著時間、資金和能源的巨大節省。AlphaEvolve 項目負責人、DeepMind 研究科學家 Matej Balog 表示,他和團隊僅在 Gemini 整體訓練流程的一小部分測試了該系統。如果更廣泛地應用,可能會帶來更多的節省。
![]()
自動化訓練
LLM 需要大量數據,其訓練在各個階段均成本高昂。在某些特定領域(例如冷門編程語言),現實世界的數據過于稀缺,難以有效訓練模型?;谌祟惙答伒膹娀瘜W習(RLHF)技術——即由人類對 LLM 的響應進行評分,再根據評分訓練模型——對于構建符合人類標準和偏好的模型至關重要,但獲取人類反饋既緩慢又昂貴。
如今,LLM 正被越來越多地用于填補這些空白。如果提供足夠的示例,LLM 可以在未經專門訓練的領域生成可信的合成數據,隨后被用于訓練。這種方法正是 Anthropic 研究人員 2022 年提出的具有影響力的“憲法 AI”框架的核心——一個 LLM 根據另一個 LLM 的反饋被訓練以減少其有害性。
對 AI 智能體而言,數據稀缺問題尤為嚴峻。高效的智能體需要能夠執行多步驟計劃來完成特定任務,但網絡上成功的分步任務示例十分稀少,而依靠人類生成新示例成本極高。為突破這一限制,斯坦福大學的 Mirhoseini 與同事近期試點了一項技術:由 LLM 智能體針對給定問題生成可能的分步解決方案,再由 LLM 評判者驗證每個步驟的有效性,最后基于這些步驟訓練新的 LLM 智能體。
![]()
完善智能體設計
目前,LLM 尚未實現重大突破的領域,恰恰是其自身架構的設計。當今所有 LLM 都基于 2017 年由人類研究者提出的 Transformer 神經網絡結構,此后該架構的重大改進同樣出自人類之手。
但 LLM 智能體的崛起開辟了全新的設計疆域。智能體需要與外界交互的工具及使用規范,優化這些工具和指令對打造高效智能體至關重要。“人類尚未投入足夠時間系統探索這些可能性,因此存在大量唾手可得的成果”,哥倫比亞大學教授、DeepMind 高級研究顧問 Jeff Clune 指出,“直接創建 AI 系統來摘取這些果實更為便捷?!?/p>
Clune 與初創公司 Sakana AI 的研究人員共同開發了名為“達爾文-哥德爾機”(Darwin-G?del Machine)的系統:這種智能體能夠迭代修改其提示詞、工具及代碼其他組件以提升任務表現。該系統不僅通過自我修改獲得了更高任務評分,更在進化過程中發現了初始版本無法觸及的改進方案——由此實現了真正的自我改進閉環。
![]()
推動科研突破
盡管 LLM 正在加速 LLM 研發流程的諸多環節,但人類在 AI 研究中的核心地位可能仍將持續相當長時間。許多專家指出,“科研品位”——即頂尖科學家甄別具有潛力的新研究課題與方向的能力——既是 AI 面臨的特殊挑戰,也是 AI 發展的關鍵要素。
但 Clune 認為,AI 攻克科研品位的難度可能低于部分研究者的預期。他與 Sakana AI 團隊正在開發名為“AI 科學家”的端到端科研系統。該系統能夠檢索科學文獻以自主確定研究課題,通過實驗驗證假設,并最終撰寫研究成果報告。
今年早些時候,該系統曾撰寫過一篇論文,提出并測試了一種旨在提升神經網絡訓練數據整合能力的新策略。在獲得研討會組織方同意后,該論文以匿名形式提交至機器學習領域頂級會議 ICML(國際機器學習大會)的附屬研討會。雖然最終該訓練策略未能奏效,但論文仍獲得評審高分并達到錄用標準。
在另一次實驗中,“AI 科學家”提出的研究思路后來被某位人類研究者在 X 平臺上獨立提出,并引發學界廣泛關注。
“當前我們正處在‘AI 科學家’的 GPT-1 時刻”,Clune 表示,“不出數年,它就將寫出被世界頂級同行評審會議和期刊錄用的論文,并做出原創性科學發現?!?/p>
![]()
超級智能會到來嗎?
在 AI 自我改進的熱潮下,未來數月乃至數年,AI 對自身發展的貢獻很可能呈倍數增長。按照扎克伯格的描述,這意味著在多個領域超越人類能力的超級智能模型已近在咫尺。但現實中,自我改進 AI 的影響遠未成定局。
AlphaEvolve 雖加速了其核心 LLM 系統 Gemini 的訓練,但 1% 的速度提升未必能顯著改變谷歌的 AI 進展節奏。若 Gemini 每個后續版本都能再提升 1% 訓練速度,這些加速效應將產生復合增長。超級智能支持者認為,這種情況下最終的“智能爆炸”不可避免。
但需要注意的是,創新會隨時間推移而愈發困難。任何科學領域的早期階段,突破往往來得快速而容易。有大量顯而易見的實驗可做、思路可循,且都未經嘗試。但隨著深度學習科學的成熟,每項額外改進都可能需要人類及其 AI 協作者付出更多努力。很可能當 AI 系統達到人類級研究能力時,人類或較弱 AI 早已摘盡“低垂的果實”。
另外,那些頂尖 AI 公司內部使用的模型很可能比公開發布的版本先進得多,僅憑觀察 ChatGPT 等公開系統的能力,難以推斷 OpenAI 內部的真實進展。
外部研究者正盡力應對——例如通過追蹤 AI 整體發展節奏來判斷是否在加速。METR 通過測量人類完成尖端 AI 自主完成任務所需的時間來監控其能力進步。他們發現,自 2019 年 GPT-2 發布以來,AI 能獨立完成的任務時長每 7 個月翻倍。而 2024 年起,這個周期已縮短至 4 個月,暗示 AI 進展確實在加速。背后或許存在平淡的原因:頂尖 AI 實驗室獲得充足投資,可用于招募人才和購置硬件。但 AI 自我改進同樣可能發揮作用
Forethought 研究員 Davidson 認為,有充分理由預期 AI 將顯著加速自身發展。METR 的研究表明,“低垂果實”效應目前尚未拖慢人類研究者的步伐,或者說增加的投資有效抵消了任何放緩。如果 AI 能顯著提升研究者效率,甚至承擔部分研究工作,這種平衡將向加速研究傾斜?!拔艺J為完全可以預期會出現 AI 加速發展的階段,關鍵問題是這種加速能持續多久?!?/p>
1.https://www.meta.com/superintelligence/
2.https://www.technologyreview.com/2025/08/06/1121193/five-ways-that-ai-is-learning-to-improve-itself/





京公網安備 11011402013531號