![]()
這項由卡內(nèi)基梅隆大學(xué)鄭海中、meta AI趙嘉偉和卡內(nèi)基梅隆大學(xué)陳蓓迪共同完成的研究,發(fā)表于2025年1月的arXiv預(yù)印本(論文編號:arXiv:2510.01161v1),為我們揭示了人工智能語言模型訓(xùn)練中一個令人意外的現(xiàn)象。研究團隊深入探索了當(dāng)AI模型使用"過時"數(shù)據(jù)進行強化學(xué)習(xí)訓(xùn)練時會發(fā)生什么,并提出了名為M2PO的創(chuàng)新訓(xùn)練方法。
想象一下,你正在教一個學(xué)生做數(shù)學(xué)題。通常情況下,老師會根據(jù)學(xué)生最新的表現(xiàn)來調(diào)整教學(xué)方法。但如果老師只能根據(jù)學(xué)生幾周前的作業(yè)表現(xiàn)來制定今天的教學(xué)計劃會怎樣?直覺上,這樣的教學(xué)效果應(yīng)該會很差。然而,這項研究卻發(fā)現(xiàn)了一個顛覆常識的現(xiàn)象——在特定條件下,使用"陳舊"的訓(xùn)練數(shù)據(jù)不僅不會讓AI模型性能下降,反而可能達到與使用最新數(shù)據(jù)相同的效果。
當(dāng)前最先進的AI語言模型,比如OpenAI的o1和DeepSeek的R1,都在推理能力上取得了重大突破。這些模型的訓(xùn)練依賴于強化學(xué)習(xí)技術(shù),就像教練訓(xùn)練運動員一樣,需要不斷地給模型反饋,告訴它哪些回答是好的,哪些需要改進。傳統(tǒng)的訓(xùn)練方法要求每次更新模型時都必須使用最新鮮的數(shù)據(jù),這就像廚師每次做菜都必須用最新鮮的食材一樣。
但是這種做法有個嚴重的效率問題。在大規(guī)模AI訓(xùn)練中,生成新的訓(xùn)練數(shù)據(jù)需要大量的計算資源和時間,就好比每次做菜前都要親自去農(nóng)場采摘最新鮮的蔬菜一樣費時費力。為了解決這個問題,研究人員開始探索能否使用相對陳舊的數(shù)據(jù)來訓(xùn)練模型,這樣可以大大提高訓(xùn)練效率,讓不同的計算任務(wù)并行進行。
然而,使用陳舊數(shù)據(jù)訓(xùn)練模型面臨著一個根本性的困難:當(dāng)訓(xùn)練數(shù)據(jù)是由較早版本的模型生成時,當(dāng)前模型和生成數(shù)據(jù)的模型之間存在差異,這種差異會導(dǎo)致訓(xùn)練過程變得不穩(wěn)定,甚至完全失敗。這就像用過時的地圖開車,可能會走錯路甚至迷路。
**一、意外發(fā)現(xiàn):"繁榮-崩潰"現(xiàn)象揭示陳舊數(shù)據(jù)的潛力**
研究團隊在實驗中意外發(fā)現(xiàn)了一個令人震驚的現(xiàn)象,他們稱之為"繁榮-崩潰"現(xiàn)象。當(dāng)他們完全移除訓(xùn)練過程中的安全約束機制時,使用陳舊數(shù)據(jù)的模型訓(xùn)練初期表現(xiàn)竟然比使用標(biāo)準(zhǔn)方法的模型更好,有時甚至能達到使用最新數(shù)據(jù)訓(xùn)練的模型的性能水平。
這個發(fā)現(xiàn)就像發(fā)現(xiàn)了一個違反直覺的自然現(xiàn)象。想象你有一臺需要定期校準(zhǔn)的精密儀器,按常理說,用過時的校準(zhǔn)數(shù)據(jù)應(yīng)該會讓儀器的精度下降。但研究團隊發(fā)現(xiàn),在去掉所有安全限制后,這臺儀器在使用過時校準(zhǔn)數(shù)據(jù)的初期階段反而表現(xiàn)得更加精準(zhǔn)。當(dāng)然,這種"繁榮"狀態(tài)并不能持續(xù)太久,最終仍會導(dǎo)致系統(tǒng)崩潰,但這個現(xiàn)象本身就說明了陳舊數(shù)據(jù)中蘊含著比預(yù)期更多的有用信息。
這一發(fā)現(xiàn)讓研究團隊意識到,問題的關(guān)鍵不在于陳舊數(shù)據(jù)本身缺乏價值,而在于現(xiàn)有的訓(xùn)練算法沒有找到正確的方式來利用這些數(shù)據(jù)。就好比一個廚師抱怨昨天的食材做不出好菜,但實際上可能只是還沒有掌握處理這些食材的正確方法。
為了深入理解這個現(xiàn)象,研究團隊分析了訓(xùn)練過程中的數(shù)據(jù)處理細節(jié)。他們發(fā)現(xiàn),傳統(tǒng)的訓(xùn)練方法會"屏蔽"掉很多看起來異常的數(shù)據(jù)點,但這些被屏蔽的數(shù)據(jù)往往恰恰是信息量最豐富的部分。這種情況類似于一個過度謹慎的編輯,為了避免錯誤而刪除了稿件中最有價值的觀點。
**二、揭秘問題根源:重要信息被錯誤屏蔽**
研究團隊進一步調(diào)查發(fā)現(xiàn),現(xiàn)有訓(xùn)練方法的問題源于一種名為"關(guān)鍵令牌屏蔽"的現(xiàn)象。在AI語言模型的訓(xùn)練中,每個詞語或符號都被稱為一個"令牌"。當(dāng)使用陳舊數(shù)據(jù)時,訓(xùn)練算法會認為某些令牌的重要性權(quán)重過高,因此會將它們屏蔽掉,不讓它們參與模型的學(xué)習(xí)過程。
然而,研究團隊通過分析發(fā)現(xiàn),這些被屏蔽的令牌往往正是信息量最大的關(guān)鍵詞匯。比如在數(shù)學(xué)推理任務(wù)中,像"首先"、"簡化"、"確定"、"驗證"、"因此"這樣的推理關(guān)鍵詞,以及一些數(shù)學(xué)符號和格式標(biāo)記,都容易被錯誤地屏蔽掉。這就像一個學(xué)生在做筆記時,恰恰把老師強調(diào)的重點內(nèi)容擦掉了一樣。
這種現(xiàn)象的根本原因在于,當(dāng)數(shù)據(jù)變得陳舊時,新舊模型之間的差異會使得某些重要令牌的重要性評分變得極端化。傳統(tǒng)的安全機制為了防止訓(xùn)練過程出現(xiàn)大的波動,會保守地屏蔽掉這些評分異常的令牌。但這種保守策略恰恰丟棄了最有價值的學(xué)習(xí)信號。
通過定量分析,研究團隊發(fā)現(xiàn),在使用256個模型更新步驟之前的陳舊數(shù)據(jù)時,傳統(tǒng)方法的令牌屏蔽率高達1.22%,而且被屏蔽的令牌平均信息熵更高,意味著它們確實包含了更多的有用信息。這個發(fā)現(xiàn)為解決問題指明了方向:需要一種更智能的方法來區(qū)分真正需要屏蔽的有害令牌和不應(yīng)該被屏蔽的有價值令牌。
**三、創(chuàng)新解決方案:M2PO方法的巧妙設(shè)計**
基于對問題根源的深入理解,研究團隊提出了一種名為M2PO(Second-Moment Trust Policy Optimization,二階矩信任策略優(yōu)化)的新方法。這個方法的核心思想是改變判斷哪些數(shù)據(jù)應(yīng)該被屏蔽的標(biāo)準(zhǔn)。
傳統(tǒng)方法就像一個嚴格的門衛(wèi),只要看到訪客的證件有任何異常就拒絕放行。而M2PO則像一個經(jīng)驗豐富的門衛(wèi),它不僅看證件是否異常,還會綜合考慮訪客的整體表現(xiàn)和當(dāng)前的安全環(huán)境,只有在確實存在嚴重風(fēng)險時才會拒絕放行。
具體來說,M2PO使用一種叫做"二階矩"的數(shù)學(xué)指標(biāo)來衡量訓(xùn)練數(shù)據(jù)的穩(wěn)定性。這個指標(biāo)比傳統(tǒng)方法使用的指標(biāo)更加穩(wěn)定和可靠。傳統(tǒng)方法容易被個別極端數(shù)據(jù)點誤導(dǎo),就像一個體重秤被一次意外的重物壓壞后就完全失準(zhǔn)一樣。而M2PO的指標(biāo)更像一個經(jīng)過精心校準(zhǔn)的精密儀器,能夠在噪音中準(zhǔn)確識別真正的信號。
M2PO方法的另一個巧妙之處在于它采用了"選擇性屏蔽"策略。傳統(tǒng)方法一旦發(fā)現(xiàn)問題就會大范圍地屏蔽數(shù)據(jù),而M2PO則像一個外科醫(yī)生一樣精確,只屏蔽那些真正會造成訓(xùn)練不穩(wěn)定的極端異常值,而保留絕大部分有價值的訓(xùn)練信號。
研究團隊還發(fā)現(xiàn),M2PO方法只需要設(shè)置一個閾值參數(shù),而且這個參數(shù)在不同的模型和任務(wù)中都非常穩(wěn)定。他們在所有實驗中都使用了0.04這個固定值,就像找到了一個萬能鑰匙,可以打開不同鎖子的門。這種穩(wěn)定性大大降低了方法的使用難度,讓其他研究者可以輕松應(yīng)用到自己的項目中。
**四、驗證效果:跨模型規(guī)模的全面測試**
為了驗證M2PO方法的有效性,研究團隊進行了一系列全面的實驗。他們測試了從17億參數(shù)到320億參數(shù)的六個不同規(guī)模的語言模型,涵蓋了Qwen、Llama等主流模型系列。這就像在不同品牌、不同馬力的汽車上測試一種新的燃油添加劑,確保其普遍適用性。
實驗結(jié)果令人印象深刻。在數(shù)學(xué)推理任務(wù)上,即使使用256個更新步驟之前的陳舊數(shù)據(jù),M2PO訓(xùn)練的模型仍能達到與使用最新數(shù)據(jù)訓(xùn)練的模型相當(dāng)?shù)男阅堋T诎藗€不同的數(shù)學(xué)推理基準(zhǔn)測試中,M2PO的平均準(zhǔn)確率比傳統(tǒng)方法提高了高達11.2%。
更令人驚訝的是,在某些情況下,使用陳舊數(shù)據(jù)的M2PO甚至比使用最新數(shù)據(jù)的傳統(tǒng)方法表現(xiàn)更好。比如在Qwen3-base-1.7B模型上,使用256步陳舊數(shù)據(jù)的M2PO達到了36.6%的準(zhǔn)確率,而使用最新數(shù)據(jù)的傳統(tǒng)方法只有33.0%的準(zhǔn)確率。這種現(xiàn)象進一步證實了研究團隊的核心觀點:陳舊數(shù)據(jù)中確實蘊含著豐富的有用信息,關(guān)鍵在于如何正確地利用它們。
研究團隊還詳細分析了M2PO在訓(xùn)練過程中的行為特征。他們發(fā)現(xiàn),M2PO能夠?qū)⒘钆破帘温蕪膫鹘y(tǒng)方法的1.22%大幅降低到僅0.06%,減少了超過一個數(shù)量級。這意味著M2PO成功地保留了絕大部分有價值的訓(xùn)練信號,同時仍然保持了訓(xùn)練的穩(wěn)定性。
**五、技術(shù)細節(jié):為何M2PO能夠成功**
M2PO成功的關(guān)鍵在于其對訓(xùn)練穩(wěn)定性的精確控制。傳統(tǒng)方法使用的穩(wěn)定性指標(biāo)容易出現(xiàn)"抵消效應(yīng)"——正面和負面的影響會相互抵消,導(dǎo)致整體指標(biāo)看起來正常,但實際上系統(tǒng)已經(jīng)變得不穩(wěn)定。這就像一個班級的平均成績看起來正常,但實際上有些學(xué)生考了滿分,有些學(xué)生考了零分。
M2PO使用的二階矩指標(biāo)則能夠準(zhǔn)確捕捉這種隱藏的不穩(wěn)定性。因為它關(guān)注的是變化的幅度而不是變化的方向,所以不會出現(xiàn)正負抵消的問題。這就像測量地震強度時,我們關(guān)心的是震動幅度而不是震動方向一樣。
從數(shù)學(xué)角度來看,研究團隊還證明了M2PO的二階矩約束實際上為一種叫做"皮爾遜卡方散度"的重要統(tǒng)計量提供了上界。這個理論保證為M2PO的有效性提供了堅實的數(shù)學(xué)基礎(chǔ),就像為一座橋梁的安全性提供了工程學(xué)證明一樣。
**六、實際應(yīng)用與未來影響**
M2PO方法的成功為大規(guī)模AI訓(xùn)練開辟了新的可能性。在實際應(yīng)用中,這種方法可以顯著提高訓(xùn)練效率,降低計算成本。想象一個擁有數(shù)千臺計算機的數(shù)據(jù)中心,傳統(tǒng)方法要求所有計算機必須同步工作,就像一個需要所有樂手完全同步的大型交響樂團。而M2PO則允許不同的計算任務(wù)異步進行,就像讓不同的樂器組可以各自排練,最后再協(xié)調(diào)配合。
這種異步訓(xùn)練能力對于大型科技公司和研究機構(gòu)具有重要意義。它不僅可以更有效地利用分布式計算資源,還可以提高系統(tǒng)的容錯能力。當(dāng)某些計算節(jié)點出現(xiàn)故障或延遲時,整個訓(xùn)練過程不會因此停止,而是可以繼續(xù)使用稍舊但仍然有效的數(shù)據(jù)。
研究團隊的工作還揭示了一個更深層的洞察:在AI訓(xùn)練中,數(shù)據(jù)的新鮮度并不是唯一重要的因素,更關(guān)鍵的是如何正確地處理和利用這些數(shù)據(jù)。這個觀點可能會改變整個AI訓(xùn)練領(lǐng)域的思維方式,促使研究者重新審視許多被認為是"過時"或"無用"的訓(xùn)練數(shù)據(jù)。
**七、更廣泛的意義與思考**
這項研究的意義超越了技術(shù)本身,它挑戰(zhàn)了我們對"新鮮度"和"有效性"關(guān)系的傳統(tǒng)認知。在許多領(lǐng)域,人們往往認為最新的就是最好的,但這項研究表明,關(guān)鍵在于是否有合適的方法來處理和利用現(xiàn)有的資源。
從資源利用的角度來看,M2PO方法體現(xiàn)了一種更加可持續(xù)的AI發(fā)展理念。與其不斷追求更多、更新的數(shù)據(jù)和計算資源,不如專注于提高現(xiàn)有資源的利用效率。這種思路對于解決AI發(fā)展中的能耗和成本問題具有重要啟示。
研究團隊還注意到,他們的方法在不同規(guī)模的模型上都表現(xiàn)出了一致的有效性,這表明所發(fā)現(xiàn)的原理具有普遍性。這種規(guī)模無關(guān)的特性對于AI技術(shù)的民主化也具有重要意義——不僅大型科技公司可以受益于這種方法,中小型研究機構(gòu)也可以用有限的資源訓(xùn)練出高質(zhì)量的模型。
說到底,這項研究最大的貢獻可能在于它改變了我們看待AI訓(xùn)練的視角。它告訴我們,在追求更強大的AI系統(tǒng)時,有時候答案不在于獲得更多的資源,而在于更智慧地使用現(xiàn)有的資源。這種"化腐朽為神奇"的能力,正是科學(xué)研究最迷人的地方。
研究團隊的工作為我們展示了一個充滿可能性的未來:在這個未來中,AI訓(xùn)練變得更加高效、可持續(xù),同時也更加民主化。雖然我們距離這個未來還有一段路要走,但M2PO方法無疑為我們指明了前進的方向。對于那些對這項研究感興趣的讀者,可以通過論文編號arXiv:2510.01161v1查找完整的技術(shù)細節(jié)和實驗數(shù)據(jù)。
Q&A
Q1:M2PO方法是什么?它解決了什么問題?
A:M2PO是一種新的AI語言模型訓(xùn)練方法,全稱為"二階矩信任策略優(yōu)化"。它主要解決了使用陳舊訓(xùn)練數(shù)據(jù)時模型性能下降的問題。傳統(tǒng)方法在使用過時數(shù)據(jù)時會錯誤屏蔽很多有價值的信息,而M2PO通過更智能的數(shù)據(jù)篩選策略,能夠保留這些有用信息,讓模型即使用陳舊數(shù)據(jù)也能達到很好的訓(xùn)練效果。
Q2:什么是"繁榮-崩潰"現(xiàn)象?為什么會發(fā)生這種情況?
A:"繁榮-崩潰"現(xiàn)象是指當(dāng)完全移除訓(xùn)練安全約束時,使用陳舊數(shù)據(jù)的AI模型在初期表現(xiàn)反而比標(biāo)準(zhǔn)方法更好,但最終會導(dǎo)致訓(xùn)練崩潰。這個現(xiàn)象說明陳舊數(shù)據(jù)中確實包含豐富的有用信息,問題在于現(xiàn)有算法沒有找到正確利用這些數(shù)據(jù)的方法,而不是數(shù)據(jù)本身缺乏價值。
Q3:M2PO方法在實際應(yīng)用中有什么優(yōu)勢?
A:M2PO最大的優(yōu)勢是能顯著提高AI訓(xùn)練效率和降低成本。它允許不同計算任務(wù)異步進行,不需要等待最新數(shù)據(jù)就能繼續(xù)訓(xùn)練,這對大規(guī)模分布式訓(xùn)練特別有用。實驗顯示,即使使用256步之前的陳舊數(shù)據(jù),M2PO仍能達到與最新數(shù)據(jù)訓(xùn)練相當(dāng)?shù)男阅埽瑴?zhǔn)確率比傳統(tǒng)方法提高了最多11.2%。





京公網(wǎng)安備 11011402013531號