大語言模型的“智能飛輪”！阿里最新綜述全面解析大模型的自進化之路

IP屬地中國·北京 編輯：王婷阿里研究院 時間：2024-09-02 22:45:25

（本文轉載自PaperWeekly）
?PaperWeekly 原創 ·作者 |林廷恩
單位 |阿里通義實驗室算法研究員
研究方向 |自然語言處理
想象一下，一個 AI 不僅能學習，還能自我改進，變得越來越聰明。這不是科幻小說，而是我們正在見證的現實。大語言模型（LLM）如今正在通過自進化的智能飛輪，不斷提升其輸出的質量和可靠性。這意味著它們能夠適應新的信息和環境，提供更可靠、更有效的幫助。那么，這一切是如何實現的呢？
論文標題：
A Survey on Self-Evolution of Large Language Models
大語言模型的自進化研究綜述
論文作者：
林廷恩，武玉川，李永彬
論文鏈接：
https://arxiv.org/abs/2404.14387
Repo鏈接：
https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/Awesome-Self-Evolution-of-LLM
背景
隨著 AI 領域迎來了大語言模型的爆發，如 ChatGPT、Gemini、LLaMA 和 Qwen 等模型在語言理解和生成方面取得了巨大成就。然而，當前的訓練方法需要大量人類監督和外部指導，不僅昂貴，而且在處理復雜任務時逐漸遇到瓶頸。為了解決這些問題，科學家們逐漸關注到一個令人興奮的新方向：自進化。
1.1 什么是自進化？
簡單來說，自進化就是讓人工智能像人類一樣，通過自己的經驗不斷學習和提升自己。就像玩游戲一樣，從初學者到高手，靠的就是不斷的練習和自我提升。
1.2 為什么自進化很重要？
傳統的大語言模型需要大量的人類幫助才能提升性能，然而，這樣的方法不僅費時費力，而且成本高昂。而自進化的方法則讓 AI 可以自主學習，不再依賴大量的人類監督。例如，AlphaGo 曾通過學習 3000 萬局棋譜成為圍棋高手，但 AlphaZero 僅僅依靠自我對弈，通過三天時間就超越了 AlphaGo，達到了超人類水平。
1.3 自進化帶來的突破
科學家們已經在自進化方面取得了一些令人驚嘆的成果。例如，DeepMind 的 AMIE 系統在診斷準確性方面超過了初級保健醫生，而微軟的 WizardLM-2 模型則超越了初版的 GPT-4。這些成功案例表明，自進化不僅是新的訓練方法，更是一種可以超越現有數據和人類限制的途徑。
1.4 自進化：大語言模型的“智能飛輪”
傳統的 AI 訓練就像跑一段路，但自進化更像是跑一個循環，不斷回到起點變得更強。我們稱之為“智能飛輪”，它包括四個階段：獲取經驗、改進經驗、迭代更新和評估。這四個階段就像一個完整的進化循環，讓大語言模型能夠不斷迭代和提升自己的能力。
1.5 自進化的四大階段
1.5.1 獲取經驗：模型的學習旅程
模型就像一名求知若渴的人，先確定學習目標，然后獲取新任務。在完成這些任務的過程中，模型不僅獲得正確答案，還從周圍環境中收集反饋，積累寶貴的經驗。
1.5.2 改進經驗：反思與修正
在獲取經驗后，模型會對這些經驗進行反思和修正。就像學生復習功課一樣，模型會剔除錯誤和不完美的數據，確保掌握的信息更加準確和高效。這一步驟幫助模型不斷優化自己的知識庫，就像人通過反復練習來提高成績一樣。
1.5.3 迭代更新：不斷提升
有了改進后的經驗，模型就開始更新自己，將新知識整合到現有的框架中。通過這種方式，模型始終保持在最新狀態，不斷提升自己的性能，以適應新的挑戰，逐步提高自己的能力。
1.5.4 評估：衡量與改進
最后，模型會通過各種評估指標來衡量自己的表現。這一階段的結果為后續的進化設定了新的目標，形成一個自我完善的閉環過程。通過不斷的評估和反饋，模型能夠識別出自己的不足，并在下一個迭代周期中進行改進，實現持續的自我提升。就像人通過考試和反饋，發現自己的弱點，并在下一次學習中努力改進。
1.6 自進化的進化目標
就像人類設定個人目標一樣，進化目標引導模型的發展，由進化能力和進化方向所組成：
進化能力：包括基于大模型與智能體的能力：
基于大模型的能力：
指令跟隨：模型能夠準確理解并執行用戶的指令。推理：具備邏輯推理和問題解決的能力。數學：在數學運算和問題解決中的表現。編碼：在編程和代碼生成方面的能力。角色扮演：模擬和參與不同角色對話的表現。
基于智能體的能力：
規劃：為未來行動制定策略和準備，并創建一系列步驟以實現特定目標。工具使用：在環境中使用各種工具（如 API）來執行任務或解決問題。具身控制：在環境中管理和協調其物理形態的能力。包括移動和物體操作。溝通協作：傳達信息和理解信息的技能，包括心智理論能力建模。
進化方向：提高模型的特定能力或特性：
改進性能：提升整體輸出質量和準確性。適應反饋：根據用戶反饋自我調整和改進。更新知識庫：保持知識庫的最新和全面性。安全性：確保輸出內容安全、無害。減少偏見：盡量消除輸出中的偏見，提供公正客觀的回答。
下面，我們將詳細介紹自進化的技術路線，具體如下：
獲取經驗
獲取經驗是推動自進化的第一步。這一過程既包括探索，也包括利用現有知識。讓我們一同揭開這個過程，看看 LLM 是如何通過任務進化、答案進化和反饋獲取來變得更聰明的。
2.1 任務進化
任務進化是啟動整個進化過程的關鍵步驟，模型首先根據進化目標來獲取任務。任務進化的方法可以分為基于外部知識、不基于外部知識和基于選擇的三種。
基于外部知識的任務進化：AI 利用外部知識生成相關任務，確保任務的真實和有效。例如，Ditto 使用像 Wikidata 和 Wikipedia 這樣的知識庫生成對話任務，而 UltraChat 則從非結構化語料中生成問題或指令。不基于外部知識的任務進化：AI 通過自身的能力生成新任務，增加任務的多樣性。例如，Self-Instruct 方法通過自我生成指令來創建新任務，而 Evol-Instruct 則通過擴展指令的復雜性和多樣性來實現這一目標。基于選擇的任務進化：AI 從現有任務中選擇最相關的任務，而不是生成新任務，從而簡化進化過程。Diverse-Evol 方法通過采樣策略從任務池中選擇多樣化的任務，提升 AI 的指令遵循能力。
2.2 答案進化
獲得任務后，AI 通過不同策略來解決這些任務，答案進化分為正向和負向兩種方法。
正向答案進化：
基于思維的策略：在解決任務時提供推理過程或理由依據，提升答案的正確性。例如，LMSI 方法通過思維鏈與自我一致性生成高信任度的答案。基于自我對奕的策略：通過與自身交互學習，如 SOTOPIA-π 通過自我對奕的強化訓練和行為克隆提升社交智能。基于交互的策略：通過與環境互動獲取反饋，例如 A3T 通過與環境交互獲取多輪軌跡，讓 AI 自主修復失敗的 ReAct 軌跡。基于溯源的策略：利用預定義規則、先驗知識或記憶引導任務解決，減少搜索空間。例如，Self-Align 通過原則驅動推理生成符合原則約束的答案。
負向答案進化：此類方法通過識別和收集不符合預期的模型行為，改善偏好對齊和安全性，可分為以下兩類：
基于對比的方法：收集多個解答，選取最優的作為正例，其他作為負例。例如，Self-Rewarding 通過生成新問題并計算分數，將高分與低分樣本分別作為正例與負例，實現自我對齊。基于擾動的方法：刻意添加擾動生成負例，避免模型生成錯誤答案。例如，RLCD 在生成時刻意加入正向與負向提示詞，引導 AI 生成正例與負例答案，獲得偏好數據并對齊。
2.3 獲取反饋
反饋在 AI 自進化中扮演著至關重要的角色，幫助 AI 證明解決方案的正確性并促進技能更新。主要分為兩類：
獲取模型反饋：AI 基于自身提供反饋內容，包括打分與評語。例如，Self-Alignment 引入自我評估模塊和知識調優策略，提高AI在知識密集型任務中的事實準確性。
獲取環境反饋：常見于可以直接執行解決方案的任務中，反饋來源包括代碼解釋器、工具執行等。例如，Self-Debugging 利用測試用例的執行結果作為反饋，使 AI 能夠自我診斷和修正代碼錯誤，顯著提高編程任務性能。
改進經驗
在獲得經驗后，大語言模型可以通過自我改進經驗來提高其輸出的質量和可靠性。這種方法分為兩大類：過濾（Filtering）和糾正（Correcting）。
3.1 基于過濾的改進經驗
通過過濾策略，模型只會使用最可靠和高質量的數據進行更新。目前，主要有兩種過濾策略：
基于指標的：利用反饋或預定義指標進行篩選。比如，ReST^{EM} 通過多次采樣數據、生成答案并使用反饋進行過濾，不依賴大量人工數據，逐步提高模型推理效果。不基于指標的：通過內部一致性或模型特有標準進行評估，提高靈活性和適應性。例如，Universal Self-Consistency 提出了一種通用一致性方法，在數學推理、代碼生成等領域顯著提高大模型效果。
3.2 基于糾正的改進經驗
基于模型來迭代改進其經驗。現有的糾正策略分為兩種：
基于評語的：通過評語發現潛在錯誤或次優輸出，并提出解決方案，引導模型改進。Self-Refine 通過迭代反饋和改進輸出，在對話、代碼生成等任務中效果顯著提升。
不基于評語的：直接利用客觀信息進行糾正，避免潛在偏見影響。STaR 利用少量帶有思維鏈的示例和大量無思維鏈的數據集，逐步提升模型的復雜推理能力。
更新
在改進經驗的基礎上，我們可以利用這些數據進行模型的迭代更新。主要方法分為兩種：基于權重（In-Weight）和基于上下文（In-context）的迭代更新。
4.1 基于權重的迭代更新
在自我進化的訓練過程中，核心挑戰在于提升整體能力并防止災難性遺忘。主要有三種策略：
基于重放的：將新數據混入舊數據，防止遺忘以前的知識。例如，AMIE 融合已有醫療知識問答和生成的模擬醫療對話，提高診斷準確性。基于正則約束的：限制模型更新，防止與原始行為出現重大偏差。例如，WARM 通過微調多個獎勵模型并加權平均，降低強化學習中的風險。基于架構的：利用額外的參數或模型進行更新。例如，EvoLLM 提出自進化的模型融合方法，使模型具備跨領域能力。
4.2 基于上下文的迭代更新
除了更新模型參數外，還可以利用 LLM 的上下文學習能力，實現快速自適應更新，常見于 Agent 應用中。主要方法有兩種：
基于外部記憶的：通過外部模塊收集和檢索經驗，在不更新模型參數的情況下實現更好的結果。例如，TRAN 從過去失敗經驗中總結規則，提高后續問題解決正確率。
基于工作記憶的：利用過去經驗，通過更新內部記憶流來提升效果。例如，Reflexion 通過反饋和反思，迭代增強 Agent 效果。
評估
準確自動地評估模型性能，并為后續改進提供方向，是個重要但缺乏研究的領域。評估方法主要有兩種：

量化評估：通過具體數字或分數來評估。例如，LLM-as-a-Judge 用大語言模型評價其他模型，評估方法與人類評判一致性接近 80%。

質化評估：通過分析模型的不足之處提供更深入的評估。例如，Chateval 通過多智能體辯論，潛在能幫助指導后續迭代目標。
未來挑戰與展望
隨著大語言模型自進化的發展，當前工作也面臨著諸多挑戰：
自進化目標：多樣性與層次性
目前的進化目標還不夠全面。大模型已應用于各行各業，我們需要一個覆蓋更多實際任務的自進化框架，提升多樣性，讓它適應更廣泛的應用。
自主性等級
自進化框架的自主性程度可以分為低、中、高三類：
低自主性：用戶預定義進化目標，設計進化管道，模型根據設計框架完成自進化。中自主性：用戶僅設定進化目標，模型獨立構建每個模塊，實現自進化。高自主性：模型診斷自身缺陷，設定進化目標并設計具體模塊，實現完全自主的自進化。
大多數現有研究仍處于低自主性水平，需要專家設計具體模塊，隨著自進化框架的發展，中高自主性的研究亟需更多關注。
經驗獲取與改進：從經驗到理論
自進化研究多依賴經驗，缺乏理論支持，機制尚不明確。需要更多理論探索，確保自進化有效改進。
迭代更新：穩定性與可塑性
我們需要在保持已有知識穩定性和適應新任務的可塑性之間找到平衡，現有方法效果有限，需尋找高效穩定的迭代更新方法。
評估：系統化和動態進化
開發動態評測集，以適應不斷進化的模型，避免靜態評測集過時或被模型記住。
安全性和超級對齊
隨著大模型智能水平逐步超越人類，確保其與人類倫理和價值觀對齊至關重要。OpenAI 的 Superalignment 計劃正致力于此。
結語
大語言模型的自進化能力正在引領人工智能領域的變革，參考人類學習過程，克服現有訓練范式對人工標注和教師模型的依賴，顯著提高性能和應用廣泛性。我們通過詳細介紹自進化框架、獲取經驗、改進經驗、迭代更新、評估及未來挑戰，提供了全面的理解和最新的研究進展。未來，隨著自進化框架的不斷發展和完善，人工智能系統將具備更強的適應能力和智能水平，有望在復雜的實際任務中不斷超越人類表現。
版塊介紹 — 技術之辯
我們聚焦于AI及更廣泛科技領域的前沿動態，追蹤人工智能芯片與模型的技術演進，不僅分享最新研究成果，更開啟技術倫理、發展趨勢的深度辯論。每一次探討，都是對未來可能性的一次勇敢探索，讓思想的火花在這里碰撞，照亮技術前行的道路。
Reading
1、開源模型越來越落后？meta甩出全新Llama 3應戰
2、通義千問一周年，開源狂飆路上的抉擇與思考｜魔搭深度訪談
3、Claude 3拒答率優化：大模型從拒答到負責任回答的演進之路
4、清華經管研究證明：生成式AI工具顯著提升人機協同效能
- END -

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

MacOS 26 Bug致顯示器閃爍：官方多次更新問題反而更糟！

千兆寬帶縮水，上網需要不打折扣的體驗感

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統新突破！上海交大提出文件系統開發新范式

OPPO Watch X3智能手表入網，預計和OPPO Find N6一起發布

全站最新

MacOS 26 Bug致顯示器閃爍：官方多次更新問題反而更糟！

千兆寬帶縮水，上網需要不打折扣的體驗感

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

熱門推薦

MacOS 26 Bug致顯示器閃爍：官方多次更新問題反而更糟！

智聯招聘康雁：企業戰略正從“利用AI”轉向“通過AI賦能人”

千兆寬帶縮水，上網需要不打折扣的體驗感

SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

摩爾線程的野心，不藏了

AI生成操作系統新突破！上海交大提出文件系統開發新范式

OPPO Watch X3智能手表入網，預計和OPPO Find N6一起發布

降息，突傳大消息！突然跳水，超8.8萬人爆倉

機器人從比硬件轉向比大腦，商湯發布開悟世界模型3.0

上交團隊實現新一代光計算芯片突破，開辟算力芯片新路徑

用iPhone級價格造出個人超算，清華博士創業拓展個人計算能力邊界

賺了幾倍：玩家僅花60元就淘到一塊GTX 1660S

“完美伴侶”是串代碼，男子因沉迷AI聊天就醫

特斯拉Model Y用戶手冊更新，將支持查看視頻錄制時擋位等

步入深水區，智能金融迎模型迭代等多重挑戰