GPT-6要「活」了？MIT新作曝光，AI「自進化」不遠了

IP屬地中國·北京 新智元 時間：2025-10-18 10:11:03

新智元報道
編輯：元宇
麻省理工學院最新研究預示著人類距離能夠自主學習的AI又邁出了關鍵一步。該研究推出了一種全新的自適應大模型框架「SEAL」，讓模型從「被動學習者」變?yōu)椤钢鲃舆M化者」。
人類距離能夠自主學習的AI又邁出了關鍵一步！
GPT-6是否有望成為第一個具備自主學習能力的大模型？

論文地址：https://arxiv.org/pdf/2506.10943
近日，麻省理工學院（MIT）提出了一種「自適應大語言模型（SEAL）」的框架，使大模型能夠具備自我調整與持續(xù)優(yōu)化等能力。

網(wǎng)友VraserX在推薦這篇論文時，稱未來發(fā)布的GPT-6可能不僅更聰明，而且它還可能「活著」（在計算意義上）。
SEAL架構可以讓模型實時從新數(shù)據(jù)中學習、自我修復退化的知識、在多次會話之間形成持久的記憶……
所以如果GPT-6整合了SEAL這些能力，它將成為一個能隨時適應世界變化的模型，一個每天都在變得更好的系統(tǒng)。
這可能標志著自主學習AI的誕生，宣告凍結權重時代的終結。

社交媒體資料顯示，該論文作者之一的Ekin Akyürek在OpenAI工作，印證了網(wǎng)友VraserX關于「該論文部分作者現(xiàn)在在OpenAI工作的說法」。
這意味著GPT-6未來有可能成為首批采用SEAL框架的前沿大模型之一。
「自我編輯」
讓大模型產生「自適應」能力
大模型的功能雖然強大，但這種強大往往是「靜態(tài)」的，無法根據(jù)新任務、新知識或新樣本而自動更新。
在SEAL框架下，當大模型遇到一個新輸入時，它會進行一次自我編輯（self-edit），生成一段文本，內容可能是怎樣重組已有信息、優(yōu)化超參數(shù)，或調用什么工具來增強數(shù)據(jù)、更新模型。
然后，通過監(jiān)督式微調（SFT），這些「自我編輯」會帶來持久的權重更新，從而讓模型具備長期適應能力。
為了訓練模型這種「自我編輯」能力，研究人員用強化學習（RL）構建了一個閉環(huán)系統(tǒng)：
模型更新后在下游任務中的表現(xiàn)，會被當作獎勵信號，改進其后續(xù)的「自我編輯」策略。
與以往那些額外加適配模塊或輔助網(wǎng)絡的方法不同，SEAL直接讓模型用自己的生成結果來控制它的學習方式。
這一機制使模型擺脫了以往「填鴨教育」的模式，讓它更像一個主動學習者。

為了改善大模型的適應性，研究人員主張賦予LLM在面對新輸入時生成自己的訓練數(shù)據(jù)與微調指令的能力。
具體來說，是通過強化學習算法，訓練 LLM 生成「自我編輯」（self-edits）——以自然語言指令的形式，指定用于更新模型權重的數(shù)據(jù)，并可選地給出優(yōu)化超參數(shù)（如圖 1）。
研究人員將這種具備「自我編輯」能力的模型稱為自適應 LLM（SEAL）。
通過知識整合、少樣本學習任務來驗證SEAL的效果，研究人員發(fā)現(xiàn)SEAL可以讓大模型具備自我適應的潛力，朝著自我進化的方向前進。
與SEAL相關的研究
1.合成數(shù)據(jù)
合成數(shù)據(jù)在訓練大模型時越來越常見，SEAL也是在這條思路上發(fā)展起來的。
但不同的是，以往的生成策略大多依賴人工調參或固定規(guī)則，而SEAL使用強化學習來自動優(yōu)化生成策略，讓模型能夠生成在后續(xù)訓練中真正可以提升下游任務表現(xiàn)的數(shù)據(jù)。
2. 知識整合
近來的多項工作嘗試通過權重更新來修改或注入事實性知識，SEAL主張通過上下文來生成額外的微調數(shù)據(jù)，并在此基礎上通過強化學習讓模型學會生成更優(yōu)的微調數(shù)據(jù)。
3. 測試時訓練
「測試時訓練」（Test-Time Training, TTT）指的是模型在推理時根據(jù)輸入動態(tài)更新部分權重，從而適應新任務。
研究發(fā)現(xiàn)，將TTT與上下文學習結合，可以在小樣本條件下表現(xiàn)更好。
SEAL的內部優(yōu)化過程可以看作一種改進版的 TTT：它多次生成并更新權重，獎勵那些帶來最大性能提升的數(shù)據(jù)生成策略。
4.強化學習
強化學習在提升大語言模型性能方面已被證明非常有效。
SEAL的創(chuàng)新之處在于它不是用RL來優(yōu)化最終答案，而是用來訓練模型如何生成那些能用于自我更新的數(shù)據(jù)。
SEAL 的核心思想是「元學習」——也就是讓模型學會如何更好地學習，其優(yōu)勢在于直接利用模型已有的生成能力來決定參數(shù)更新方式，從而具備更強的通用性。
5. 自我提升
近年來，許多研究開始探索模型如何自我提升。
比如，RLAIF 或自獎勵語言模型讓模型自己評估并獎勵自己的輸出，從而改進表現(xiàn)。也有方法通過模型的置信度或多數(shù)投票來指導強化學習。
但這些方法往往受限于模型當前的自我評估能力。
SEAL的做法不同：它把「自我提升」看作與外部數(shù)據(jù)交互的過程。
通過強化學習，SEAL學會如何最有效地利用這些外部數(shù)據(jù)，真正實現(xiàn)自我改進。
不直接教模型做任務
而是教它怎樣更有效地學習
在SEAL中，模型會根據(jù)輸入上下文（例如一段知識或幾個示例）生成一段合成數(shù)據(jù)，這段數(shù)據(jù)就叫「自我編輯」，然后模型再用這段數(shù)據(jù)微調自己。
整個生成過程通過強化學習訓練而來，隨著訓練推進，它就逐漸學會生成更有用的編輯。
因此，SEAL可以被解釋為包含兩層循環(huán)的算法：
外層循環(huán)用強化學習來優(yōu)化「生成怎樣的自我編輯」；
內層循環(huán)則用生成的自我編輯微調模型，讓模型真正變得更強。
從這點來看，SEAL是一種元學習方法：它不是直接教模型做任務，而是教模型怎樣更有效地學習。
研究人員在知識整合與少樣本學習兩個領域對SEAL能力進行驗證。
知識整合

實例的目標是高效地將段落中提供的信息整合到模型權重中。
圖2顯示了SEAL在知識整合任務中的工作流程，包括Passage（輸入段落）、Self-Edit（自我編輯）、evaluation（評估）。
少樣本學習

圖3顯示了SEAL在少樣本學習任務中的工作原理，包括Few-Shot Examples（少樣本示例）、Self-Edit（自我編輯）階段、SFT（監(jiān)督微調）、evaluation（評估）。

在該項實例中，研究人員通過Llama-3.2-1B-Instruct 進行實驗，并與ICL（上下文學習）、TTT + 自我編輯、Oracle TTT等基線進行對比，結果如表1所示：
SEAL顯著提升了適配成功率達到了72.5%，但其表現(xiàn)仍低于Oracle TTT，說明仍有改進空間。
據(jù)預測，到了2028年，前沿大模型將在所有公開可用的人類生成文本上完成訓練。
那時大模型的進步就不再依賴更多人類數(shù)據(jù)，而要靠自己創(chuàng)造新的學習材料——也就是要學會自身生成、提煉、改進知識。
在這樣的趨勢下，SEAL展示了一種新的可能：
大模型在預訓練后可以通過生成自己的合成自我編輯數(shù)據(jù)，并以輕量的權重更新來應用它們，使模型可以自主整合新知識、適應新任務。
研究人員希望將能SEAL擴展到更廣泛的領域——包括預訓練、持續(xù)學習和智能體系統(tǒng)，最終讓大模型可以在一個數(shù)據(jù)有限的世界中，真正實現(xiàn)自我學習與自我成長。
雖然在測試中，SEAL仍會出現(xiàn)「災難性遺忘」的問題，還存在著諸多局限，但SEAL的提出仍為未來前沿大模型實現(xiàn)自主學習、自進化提供了一條值得期待的新路徑。
也許未來在GPT-6上，我們就能看到這種自主學習的能力。
參考資料：
https://www.wired.com/story/this-ai-model-never-stops-learning/%20
https://arxiv.org/abs/2506.10943

免責聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內容侵犯您的權益，請及時聯(lián)系我們，本站將會在24小時內處理完畢。

同類資訊

羅永浩錘子軟件在上海成立分公司

豆包視頻生成大升級，網(wǎng)友們的腦洞終于自帶音效了

字節(jié)跳動被傳全年利潤500億美元創(chuàng)新高知情人士回應：數(shù)據(jù)不實偏差較大

大疆的“印鈔機”，被手機廠商盯上了

特斯拉專利給攝像頭裝“電動墨鏡”提升自動駕駛可靠性

獨家丨山姆系高管入職京東數(shù)月「閃退」，其負責的自有品牌事業(yè)部接連調整

全站最新

羅永浩錘子軟件在上海成立分公司

豆包視頻生成大升級，網(wǎng)友們的腦洞終于自帶音效了

字節(jié)跳動被傳全年利潤500億美元創(chuàng)新高知情人士回應：數(shù)據(jù)不實偏差較大

大疆的“印鈔機”，被手機廠商盯上了

熱門推薦

羅永浩錘子軟件在上海成立分公司

豆包視頻生成大升級，網(wǎng)友們的腦洞終于自帶音效了

字節(jié)跳動被傳全年利潤500億美元創(chuàng)新高知情人士回應：數(shù)據(jù)不實偏差較大

大疆的“印鈔機”，被手機廠商盯上了

特斯拉專利給攝像頭裝“電動墨鏡”提升自動駕駛可靠性

獨家丨山姆系高管入職京東數(shù)月「閃退」，其負責的自有品牌事業(yè)部接連調整

笑瘋了！AI開小賣部被人類騙到破產，PS5竟然0元送

「一腦多形」圓桌：世界模型、空間智能在具身智能出現(xiàn)了哪些具體進展？丨GAIR 2025

奧動新能源港股IPO：“報表優(yōu)化”后的盈利迷霧

Karpathy2025年AI終極復盤：我們還沒發(fā)揮出LLM潛力的10%

百人會張永偉：2026年車市2%微增長，行業(yè)出清將加速

為船舶配備“AI 護航員” 我國首套全國產化VTS系統(tǒng)落地大連

說句話就能改文檔！微軟Copilot新增語音實時編輯功能

保時捷718純電版被拍到開啟第四輪冬測，研發(fā)周期破紀錄

維基百科聯(lián)合創(chuàng)始人：馬斯克的Grokipedia受到批評，我并不感到驚訝