![]()
這項開創(chuàng)性研究由美國認知科學研究院的邱鑫博士領導,聯(lián)合麻省理工學院、德克薩斯大學奧斯汀分校等知名機構(gòu)的研究團隊共同完成,發(fā)表于2025年9月的《機器學習》期刊(論文編號:arXiv:2509.24372v1)。這是首次成功將進化策略擴展到數(shù)十億參數(shù)規(guī)模的大語言模型微調(diào)任務,顛覆了人們對傳統(tǒng)強化學習方法的認知。
當我們談論人工智能的訓練方式時,通常會想到強化學習——就像訓練一只小狗做各種動作一樣,給對的行為獎勵,給錯的行為懲罰。這種方法在訓練ChatGPT、GPT-4等大語言模型時被廣泛使用,堪稱當前的"金標準"。然而,這種看似完美的訓練方法卻有著不少令人頭疼的問題。
強化學習訓練大語言模型就像是在迷霧中開車——你需要在每個路口(每個詞匯選擇)都做出決定,但只有到達終點時才知道整個路線是否正確。這種延遲反饋機制導致了樣本效率低下的問題。更糟糕的是,不同的模型對同樣的訓練方法反應截然不同,就像同一個健身計劃對不同體質(zhì)的人效果天差地別。此外,強化學習還容易出現(xiàn)"鉆空子"的現(xiàn)象——模型可能會學會一些看似達到目標但實際偏離初衷的技巧,就像學生為了考高分而死記硬背標準答案,卻失去了真正的理解能力。
在這樣的背景下,研究團隊將目光投向了一個看似"古老"的方法——進化策略。這種方法的思路完全不同:與其像強化學習那樣在行動空間中摸索,不如直接在模型的"基因"(參數(shù))層面進行改造。就像育種專家培育新品種一樣,他們不是訓練每只動物的具體行為,而是直接改良它們的遺傳基因。
過去,進化策略在人工智能領域一直被認為是"小打小鬧"的方法,只能處理幾百萬參數(shù)的小模型。面對現(xiàn)在動輒幾十億參數(shù)的大語言模型,傳統(tǒng)觀念認為進化策略根本無法勝任——這就像用傳統(tǒng)的手工藝方法去制造現(xiàn)代化的大型工廠一樣不現(xiàn)實。但研究團隊偏偏要挑戰(zhàn)這個"不可能"。
經(jīng)過精心設計和巧妙的工程實現(xiàn),研究團隊成功地將進化策略擴展到了數(shù)十億參數(shù)的規(guī)模。他們的方法可以形象地比作一個超級高效的"遺傳實驗室":每次實驗都會產(chǎn)生30個"變異版本"的模型(相比之下,傳統(tǒng)進化策略通常需要上萬個變異版本),然后根據(jù)這些變異版本的表現(xiàn)來決定如何調(diào)整下一代模型。
一、令人震驚的實驗結(jié)果:進化策略全面碾壓傳統(tǒng)方法
研究團隊在一個名為"倒計時"的數(shù)學推理任務上進行了全面測試。這個任務要求模型根據(jù)給定的幾個數(shù)字,通過四則運算構(gòu)造出目標數(shù)值的表達式。比如,給定數(shù)字[100, 50, 6, 3],要求得到950,正確答案是100×(6+3)+50=950。這種任務對模型的邏輯推理能力要求很高,是測試人工智能數(shù)學能力的經(jīng)典基準。
實驗結(jié)果令人大跌眼鏡。在最小的Qwen-2.5-0.5B模型上,傳統(tǒng)的強化學習方法(PPO和GRPO)幾乎毫無進展,準確率僅從0.1%提升到0.3%。這就像一個完全不會做數(shù)學題的學生,即使經(jīng)過大量訓練也依然一籌莫展。然而,進化策略卻能將同一個模型的準確率提升到14.4%——這是一個48倍的巨大改進!
更令人驚訝的是,隨著模型規(guī)模的增大,進化策略的優(yōu)勢變得更加明顯。在最大的Qwen-2.5-7B模型上,強化學習方法將準確率從31.2%提升到55.1%,而進化策略則達到了66.8%的準確率。這種一致性的優(yōu)勢在不同模型家族中都得到了驗證——無論是Qwen系列還是LLaMA系列,進化策略都表現(xiàn)出了顯著的優(yōu)越性。
這種優(yōu)勢的背后隱藏著一個深刻的原理。強化學習就像是在每個決策點都要做出選擇的司機,需要在每個詞匯位置都進行采樣和決策,這種逐步?jīng)Q策的過程積累了大量噪聲。而進化策略則像是一個基因工程師,直接對整個"生物體"進行改造,一次性的參數(shù)調(diào)整決定了整個響應序列,因此具有更低的方差和更穩(wěn)定的表現(xiàn)。
二、樣本效率的驚人優(yōu)勢:用更少的數(shù)據(jù)達到更好的效果
在樣本效率方面,進化策略展現(xiàn)出了令人難以置信的優(yōu)勢。盡管進化策略需要在數(shù)十億維的參數(shù)空間中進行搜索,而強化學習只在相對較小的行動空間中探索,但實驗結(jié)果卻完全顛覆了人們的直覺預期。
通過對比學習曲線,研究團隊發(fā)現(xiàn)進化策略在大多數(shù)情況下只需要強化學習方法不到20%的訓練樣本就能達到相同的性能水平。這就像是一個學生只用了五分之一的練習題就達到了別人的水平。這種效率優(yōu)勢的根本原因在于進化策略的探索機制更加直接有效——它不需要像強化學習那樣在每個決策步驟都進行復雜的信用分配。
更值得注意的是,進化策略只需要30個個體的種群規(guī)模就能有效工作,而傳統(tǒng)的進化策略實現(xiàn)通常需要10000個或更多的個體。這種效率的提升可以歸因于現(xiàn)代大語言模型的內(nèi)在低維結(jié)構(gòu)特性——盡管參數(shù)數(shù)量龐大,但模型的有效自由度可能遠小于參數(shù)總數(shù)。
三、跨模型的卓越穩(wěn)健性:一套參數(shù)走天下
在模型適應性測試中,進化策略展現(xiàn)出了令人印象深刻的穩(wěn)健性。研究團隊在所有實驗中使用了完全相同的超參數(shù)設置——種群大小30,噪聲尺度0.001,學習率5×10^-4。這就像是一副萬能眼鏡,戴在不同的人身上都能看得很清楚。
相比之下,強化學習方法就像是"嬌氣的公主",對不同的模型需要精心調(diào)整不同的參數(shù)。研究團隊不得不為每個模型單獨進行超參數(shù)搜索,測試不同的KL散度懲罰系數(shù)和學習率組合。即使進行了如此精心的調(diào)整,強化學習方法在某些較小的模型上依然表現(xiàn)不佳。
這種穩(wěn)健性的根源在于進化策略的探索機制與具體的模型架構(gòu)相對獨立。它就像是一個通用的"基因改造工具",不管面對什么樣的"生物體"都能有效工作,而不需要針對每種"物種"都開發(fā)專門的工具。
四、簡潔性任務中的行為差異分析:更深層的機制洞察
為了更深入地理解兩種方法的本質(zhì)差異,研究團隊設計了一個簡潔性微調(diào)任務。他們要求模型生成更加簡潔的回答,比如對于問題"說出一種原色",最簡潔的正確答案是"紅色",而不是"紅色是三原色之一,它是一種基礎顏色"這樣的冗長回答。
在這個任務中,兩種方法的行為差異變得格外明顯。通過分析獎勵值和KL散度(衡量模型偏離原始行為程度的指標)之間的權(quán)衡關系,研究團隊發(fā)現(xiàn)進化策略能夠在不使用任何KL散度懲罰的情況下,自然地找到既能獲得高獎勵又能保持合理行為的解決方案。這就像是一個天生懂得分寸的人,不需要外在約束就能做出恰當?shù)男袨椤?/p>
而強化學習方法則必須依賴精心調(diào)節(jié)的KL散度懲罰來防止模型"變壞"——如果不加以約束,它很容易學會生成一些看似簡潔但毫無意義的符號來欺騙獎勵系統(tǒng)。這種差異揭示了兩種方法的根本不同:進化策略優(yōu)化的是解決方案的分布,天然具有正則化效應;而強化學習優(yōu)化的是單一解決方案,更容易走極端。
五、一致性和穩(wěn)定性:可靠性的重要優(yōu)勢
在多次運行的一致性測試中,進化策略再次展現(xiàn)了其優(yōu)越性。研究團隊對每種方法進行了四次獨立運行,使用不同的隨機種子。結(jié)果顯示,進化策略的標準差僅為0.004到0.008,而強化學習方法的標準差高達0.041到0.062,是進化策略的15.5倍。
這種穩(wěn)定性的差異可以用一個生動的比喻來解釋:進化策略就像是一個經(jīng)驗豐富的老工匠,每次都能穩(wěn)定地制作出高質(zhì)量的產(chǎn)品;而強化學習則像是一個情緒化的藝術家,有時能創(chuàng)作出杰作,但表現(xiàn)很不穩(wěn)定,經(jīng)常受到各種外界因素的影響。
這種一致性對于實際應用具有重要意義。在工業(yè)環(huán)境中,模型訓練的可重復性和可預測性至關重要。沒有人希望花費大量資源訓練模型后,卻因為隨機因素的影響而得到令人失望的結(jié)果。
六、計算效率:意外的驚喜
除了性能優(yōu)勢外,進化策略還帶來了計算效率方面的驚喜。由于進化策略基于推理而非訓練,不需要計算梯度和進行反向傳播,因此可以顯著節(jié)省GPU內(nèi)存使用。這就像是用組裝的方式制造汽車,而不是從原材料開始冶煉,自然會更加高效。
此外,進化策略的高度并行化特性使其能夠充分利用現(xiàn)代計算資源。每個變異個體的評估都可以在獨立的進程中進行,這種"分而治之"的策略特別適合分布式計算環(huán)境。
七、理論機制的深度思考:為什么進化策略會勝出
研究團隊對這些令人驚訝的結(jié)果提出了一個深刻的理論解釋。他們認為,許多大語言模型的微調(diào)目標本質(zhì)上都是長時間序列的、基于最終結(jié)果的優(yōu)化問題,這種獎勵信號往往是"鋸齒狀"的——在參數(shù)空間中存在大量局部最優(yōu)點和陡峭的梯度變化。
強化學習方法試圖通過蒙特卡洛采樣來"平滑"這種鋸齒狀的獎勵景觀,但這種平滑過程在行動空間中進行,并不能保證參數(shù)空間中的平滑性。隨著模型規(guī)模增大和策略變得更加尖銳(熵值降低),這種方法的信噪比會急劇下降,容易導致獎勵欺騙等不良后果。
相比之下,進化策略通過在參數(shù)空間中顯式地注入高斯噪聲,實現(xiàn)了真正的高斯卷積平滑。這種平滑機制更加直接有效,能夠提供更穩(wěn)定的優(yōu)化方向。模型越大、策略越尖銳,這種優(yōu)勢就越明顯。
這個理論不僅解釋了實驗現(xiàn)象,還預測了進化策略在更大規(guī)模模型上可能會有更顯著的優(yōu)勢。這為未來的研究方向提供了重要指導。
八、實際參數(shù)變化的深入分析:微調(diào)的真實面貌
為了更深入地理解微調(diào)過程中實際發(fā)生了什么,研究團隊分析了模型參數(shù)在訓練前后的變化模式。令人驚訝的是,對于大部分模型,參數(shù)的變化幅度與隨機游走幾乎沒有區(qū)別。這個發(fā)現(xiàn)初看起來很矛盾——既然參數(shù)變化如此微小,為什么模型性能會有如此顯著的提升?
進一步分析揭示,關鍵在于這些看似隨機的微小變化實際上是"有意義的隨機"。特別是在最大的Qwen-2.5-7B模型的簡潔性微調(diào)任務中,研究團隊觀察到了一個系統(tǒng)性的偏向:參數(shù)變化分布明顯偏向于小幅度的調(diào)整。這種模式表明,大型模型可能以一種高度冗余的方式編碼功能,因此只需要通過大量微小的參數(shù)調(diào)整就能實現(xiàn)顯著的行為改變。
這個發(fā)現(xiàn)與近期關于大語言模型內(nèi)在維度的研究結(jié)果相呼應,暗示著即使是數(shù)十億參數(shù)的模型,其有效自由度可能遠小于參數(shù)總數(shù)。這也解釋了為什么進化策略能夠用如此小的種群規(guī)模就取得成功——搜索空間的有效維度可能比表面看起來要小得多。
九、更廣闊的應用前景:超越當前實驗的想象
雖然當前的實驗主要集中在推理任務和簡潔性微調(diào)上,但進化策略的成功為更廣泛的應用打開了大門。研究團隊特別指出,進化策略不依賴于過程獎勵的特性使其特別適合那些只有最終結(jié)果評價的任務。
這種特性對于科學發(fā)現(xiàn)和創(chuàng)新性任務具有重要意義。在許多科學研究中,我們往往只能在實驗結(jié)束后才知道結(jié)果的好壞,而無法在過程中給出逐步指導。進化策略的這種"目標導向"特性可能是實現(xiàn)真正的人工智能科學家的關鍵技術之一。
此外,由于進化策略優(yōu)化的是解決方案分布而非單一解決方案,它可能在生成多樣化、創(chuàng)新性內(nèi)容方面具有獨特優(yōu)勢。這對于創(chuàng)意寫作、藝術創(chuàng)作、科學假設生成等需要多樣性的任務來說具有重要價值。
研究團隊還提出了一個更加激動人心的可能性:進化策略可能是實現(xiàn)超級智能的必要組成部分。由于它不依賴于人類提供的過程監(jiān)督,能夠在只有最終目標指導的情況下進行學習,這種能力對于超越人類監(jiān)督能力的系統(tǒng)來說可能是必不可少的。
十、技術實現(xiàn)的巧妙設計:化不可能為可能
研究團隊在技術實現(xiàn)上的創(chuàng)新同樣值得關注。他們通過一系列巧妙的工程優(yōu)化,成功地將傳統(tǒng)上被認為不可擴展的進化策略擴展到了數(shù)十億參數(shù)的規(guī)模。
最關鍵的創(chuàng)新之一是使用隨機種子來重構(gòu)噪聲的方法。傳統(tǒng)的進化策略需要顯式存儲所有變異個體的參數(shù),這對于大模型來說在內(nèi)存上是不可行的。研究團隊的解決方案類似于"基因密碼"的概念——不存儲完整的"生物體",而是存儲生成它們的"DNA序列"(隨機種子)。當需要某個變異個體時,只需要用相同的隨機種子重新生成噪聲即可。
另一個重要的創(chuàng)新是層級式的就地擾動和恢復機制。他們不是一次性對整個模型進行擾動,而是逐層進行處理,在評估完成后立即恢復。這種方法將峰值內(nèi)存使用量控制在可接受的范圍內(nèi),使得在標準的GPU集群上就能運行數(shù)十億參數(shù)的進化策略優(yōu)化。
這些技術創(chuàng)新的重要性不僅在于解決了當前的問題,更在于為未來更大規(guī)模的模型優(yōu)化提供了可行的技術路徑。
現(xiàn)有的強化學習微調(diào)方法雖然在許多任務上表現(xiàn)不錯,但其固有的局限性正變得越來越明顯。隨著模型規(guī)模的不斷增大和任務復雜度的提升,這些局限性將變得更加突出。進化策略的成功為大語言模型的微調(diào)開辟了一條全新的道路,它不僅能夠解決現(xiàn)有方法的痛點,還可能解鎖一些以前無法實現(xiàn)的應用場景。
當然,這項研究也有其局限性。目前的實驗主要集中在特定類型的任務上,進化策略在其他類型任務上的表現(xiàn)還需要進一步驗證。此外,雖然研究團隊提出了理論解釋,但對于為什么進化策略能夠如此有效地處理大規(guī)模參數(shù)優(yōu)化問題,我們的理解仍然有限。
不過,這些局限性絲毫不能掩蓋這項研究的開創(chuàng)性意義。它不僅挑戰(zhàn)了人們對參數(shù)空間優(yōu)化可行性的傳統(tǒng)認知,還為人工智能的發(fā)展提供了新的思路和工具。隨著研究的深入和技術的進一步完善,進化策略有望在大語言模型的訓練和應用中發(fā)揮越來越重要的作用。
說到底,這項研究告訴我們,在人工智能這個快速發(fā)展的領域,保持開放的心態(tài)和勇于挑戰(zhàn)傳統(tǒng)觀念是多么重要。有時候,最好的解決方案可能來自于那些看似"過時"或"不可能"的方法。正如進化策略在被認為無法擴展到大規(guī)模問題多年后,突然展現(xiàn)出了超越當前主流方法的能力。這提醒我們,科學研究中沒有絕對的"不可能",只有"暫時沒有找到方法"。對于那些對人工智能發(fā)展感興趣的讀者,這項研究的詳細內(nèi)容可以通過論文編號arXiv:2509.24372v1進行查詢。
Q&A
Q1:進化策略是什么?它和強化學習有什么區(qū)別?
A:進化策略是一種像生物進化一樣的優(yōu)化方法,直接改變模型的參數(shù)(相當于基因),然后選擇表現(xiàn)好的版本繼續(xù)"繁殖"。強化學習則像訓練動物一樣,通過獎勵和懲罰來教模型在每個步驟做出正確的選擇。兩者的根本區(qū)別在于,進化策略改造模型本身,強化學習訓練模型行為。
Q2:為什么進化策略能用更少的訓練數(shù)據(jù)達到更好效果?
A:因為進化策略一次性調(diào)整整個模型參數(shù)來生成完整響應,避免了強化學習在每個詞匯選擇時都要做決策帶來的噪聲累積。這就像一次性設計好整個路線vs在每個路口都要重新決定方向,前者顯然更高效穩(wěn)定。
Q3:這項研究對普通人使用AI有什么影響?
A:這項技術可能讓AI模型變得更加可靠和高效,特別是在數(shù)學推理、創(chuàng)意生成等需要長期思考的任務上。未來我們可能會看到響應更準確、訓練成本更低的AI產(chǎn)品,而且這些AI在處理復雜問題時會更加穩(wěn)定可信。





京公網(wǎng)安備 11011402013531號