![]()
這項(xiàng)由紐約大學(xué)Yunzhen Feng、meta超級智能實(shí)驗(yàn)室Parag Jain和Anthony Hartshorn,以及紐約大學(xué)Yaqi Duan和Julia Kempe共同完成的研究發(fā)表于2025年10月,論文編號為arXiv:2510.08696v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
想象一下你在學(xué)習(xí)做一道復(fù)雜的菜,每次嘗試后都會得到反饋:"做得對"或"做得不對"。傳統(tǒng)的學(xué)習(xí)方式就像是,如果你這次做的每個(gè)步驟都錯(cuò)了,那這次的經(jīng)歷就完全白費(fèi)了,什么都學(xué)不到。但這樣真的合理嗎?畢竟,就算整道菜做失敗了,你也能從中學(xué)到一些東西,比如知道哪些錯(cuò)誤不要再犯。
這正是當(dāng)前人工智能領(lǐng)域面臨的一個(gè)重要問題。當(dāng)AI系統(tǒng)在學(xué)習(xí)解決數(shù)學(xué)題或推理問題時(shí),它們會產(chǎn)生多個(gè)答案嘗試。如果所有答案都是錯(cuò)的,傳統(tǒng)方法就會完全忽略這些嘗試,就好像它們從未發(fā)生過一樣。這不僅浪費(fèi)了大量計(jì)算資源,更重要的是錯(cuò)失了寶貴的學(xué)習(xí)機(jī)會。
meta AI團(tuán)隊(duì)和紐約大學(xué)的研究者們發(fā)現(xiàn)了這個(gè)問題的核心所在。他們觀察到,在目前廣泛使用的強(qiáng)化學(xué)習(xí)算法中,特別是被稱為GRPO(群組相對策略優(yōu)化)的方法中,存在著一個(gè)嚴(yán)重的效率問題。當(dāng)AI生成的一批答案全部錯(cuò)誤時(shí),這些"負(fù)面群組"不會對學(xué)習(xí)過程產(chǎn)生任何貢獻(xiàn),就像是白白消耗了寶貴的計(jì)算時(shí)間。
研究團(tuán)隊(duì)提出了一個(gè)革命性的解決方案,他們稱之為LENS(負(fù)樣本似然估計(jì))。這個(gè)方法的核心思想非常巧妙:不同的錯(cuò)誤答案應(yīng)該得到不同的對待。如果AI對一個(gè)錯(cuò)誤答案非常自信,那么這個(gè)錯(cuò)誤就應(yīng)該受到更嚴(yán)厲的"懲罰",因?yàn)檫^度自信的錯(cuò)誤比不確定的錯(cuò)誤更危險(xiǎn)。相反,如果AI對錯(cuò)誤答案本身就不太確定,那么懲罰就應(yīng)該輕一些。
這就像是在教學(xué)過程中,一個(gè)學(xué)生非常自信地給出錯(cuò)誤答案和一個(gè)學(xué)生猶豫不決地給出錯(cuò)誤答案,應(yīng)該得到不同程度的糾正。前者需要更多的關(guān)注,因?yàn)檫^度自信可能導(dǎo)致更大的問題,而后者已經(jīng)意識到了自己的不確定性。
**一、從廢料中提取黃金:重新審視"失敗"的價(jià)值**
傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法在處理全錯(cuò)答案組時(shí)就像是一個(gè)挑剔的收藏家,只要發(fā)現(xiàn)整批物品中沒有珍寶,就會把整批東西全部丟棄。但研究團(tuán)隊(duì)認(rèn)識到,即使是"廢料"中也可能蘊(yùn)含著有價(jià)值的信息。
當(dāng)前最先進(jìn)的群組相對策略優(yōu)化算法在訓(xùn)練大型語言模型進(jìn)行數(shù)學(xué)推理時(shí)表現(xiàn)出色,但存在一個(gè)根本性缺陷。每當(dāng)AI生成的16個(gè)答案全部錯(cuò)誤時(shí)(這在訓(xùn)練初期和困難問題上經(jīng)常發(fā)生),這些答案就會被完全忽略,不對模型的學(xué)習(xí)產(chǎn)生任何影響。研究數(shù)據(jù)顯示,在訓(xùn)練初期,近45%的生成組都是全錯(cuò)的,即使在訓(xùn)練后期仍有約35%的全錯(cuò)組合。這意味著幾乎一半的計(jì)算資源都被浪費(fèi)了。
研究團(tuán)隊(duì)深入分析了這種浪費(fèi)背后的數(shù)學(xué)原理。在傳統(tǒng)方法中,全錯(cuò)組合的"優(yōu)勢值"(用來指導(dǎo)學(xué)習(xí)的信號)為零,因此對梯度更新沒有貢獻(xiàn)。這就像是一個(gè)學(xué)生交了白卷,老師既不能表揚(yáng)也不能批評,只能當(dāng)作什么都沒發(fā)生。
但研究者們提出了一個(gè)關(guān)鍵洞察:錯(cuò)誤答案之間是有區(qū)別的。一個(gè)AI系統(tǒng)給出錯(cuò)誤答案時(shí)的"自信程度"透露了重要信息。如果系統(tǒng)對錯(cuò)誤答案很自信,這表明存在過度自信的問題,需要被糾正。如果系統(tǒng)對錯(cuò)誤答案本身就不確定,這說明系統(tǒng)已經(jīng)意識到了困難,這種不確定性實(shí)際上是有價(jià)值的。
**二、數(shù)學(xué)美學(xué)的勝利:從獎(jiǎng)勵(lì)建模到策略優(yōu)化的優(yōu)雅橋梁**
研究團(tuán)隊(duì)的突破來自于一個(gè)意外的發(fā)現(xiàn):他們發(fā)現(xiàn)可以通過一個(gè)數(shù)學(xué)上優(yōu)雅的方式,將獎(jiǎng)勵(lì)建模(判斷答案對錯(cuò)的過程)和策略優(yōu)化(改進(jìn)AI系統(tǒng)的過程)完美結(jié)合起來。
這個(gè)發(fā)現(xiàn)的起點(diǎn)是一個(gè)看似簡單的問題:如果我們想要訓(xùn)練一個(gè)模型來區(qū)分正確和錯(cuò)誤的答案,最直接的方法是什么?答案是最大似然估計(jì),這是統(tǒng)計(jì)學(xué)中一個(gè)基礎(chǔ)而強(qiáng)大的工具。但當(dāng)研究團(tuán)隊(duì)深入分析最大似然估計(jì)的數(shù)學(xué)結(jié)構(gòu)時(shí),他們發(fā)現(xiàn)了一個(gè)令人驚喜的事實(shí)。
最大似然估計(jì)的梯度(用來指導(dǎo)學(xué)習(xí)的數(shù)學(xué)信號)可以被重新解釋為一個(gè)修改過的策略優(yōu)化目標(biāo)的梯度。這個(gè)修改后的目標(biāo)函數(shù)不僅包含了傳統(tǒng)的獎(jiǎng)勵(lì)項(xiàng)(鼓勵(lì)正確答案),還包含了一個(gè)全新的懲罰項(xiàng),專門用來處理錯(cuò)誤答案。
這個(gè)懲罰項(xiàng)的設(shè)計(jì)非常巧妙。它使用了一個(gè)叫做"置信度加權(quán)"的機(jī)制,根據(jù)AI系統(tǒng)對錯(cuò)誤答案的自信程度來調(diào)整懲罰強(qiáng)度。具體來說,懲罰的重量由一個(gè)特殊的函數(shù)決定:w(z) = (1/z)log(1/(1-z)) - 1,其中z代表系統(tǒng)的置信度。
當(dāng)系統(tǒng)對錯(cuò)誤答案的置信度接近0時(shí)(即系統(tǒng)本身就很不確定),懲罰接近0。當(dāng)置信度接近某個(gè)閾值時(shí),懲罰急劇增加。這創(chuàng)造了一個(gè)"甜蜜點(diǎn)":系統(tǒng)被鼓勵(lì)在不確定時(shí)保持謙遜,但對過度自信的錯(cuò)誤會受到嚴(yán)厲懲罰。
**三、實(shí)踐中的智慧:從理論到可行的算法改進(jìn)**
將這個(gè)理論發(fā)現(xiàn)轉(zhuǎn)化為實(shí)際可用的算法需要解決幾個(gè)技術(shù)挑戰(zhàn)。研究團(tuán)隊(duì)必須找到一種方法,既能保持原有算法的穩(wěn)定性,又能有效利用這些新的信號。
第一個(gè)挑戰(zhàn)是如何估計(jì)"難度因子"D(q),這個(gè)參數(shù)決定了懲罰的強(qiáng)度。研究團(tuán)隊(duì)采用了重要性采樣的方法,通過觀察當(dāng)前生成的答案來估計(jì)問題的難度。對于混合組(既有對的也有錯(cuò)的答案),他們使用Monte Carlo方法來估計(jì)。對于全錯(cuò)組,他們采用保守的估計(jì)策略,確保算法的穩(wěn)定性。
第二個(gè)挑戰(zhàn)是處理長序列生成的特殊性。大語言模型生成的答案可能很長,而序列概率往往受到長度的強(qiáng)烈影響。為了解決這個(gè)問題,研究團(tuán)隊(duì)使用了長度歸一化的概率,也就是幾何平均概率,這相當(dāng)于為正確答案引入了長度偏好。
第三個(gè)挑戰(zhàn)是保持GRPO算法原有的符號不變性。傳統(tǒng)GRPO的一個(gè)重要特性是,無論組內(nèi)有多少正確答案,歸一化后所有錯(cuò)誤答案都會有負(fù)的優(yōu)勢值,所有正確答案都會有正的優(yōu)勢值。為了保持這個(gè)特性,研究團(tuán)隊(duì)為負(fù)樣本引入了1/G的縮放因子。
最終的算法實(shí)現(xiàn)相當(dāng)簡潔。對于每個(gè)生成的答案,新的獎(jiǎng)勵(lì)函數(shù)是:r = r - (1-r) × (1/G) × π(o|q)/(D(q) - π(o|q)),其中r是原始獎(jiǎng)勵(lì)(0或1),π是長度歸一化的概率,D(q)是估計(jì)的難度因子。
**四、實(shí)驗(yàn)證實(shí):從理論到實(shí)踐的成功轉(zhuǎn)化**
為了驗(yàn)證這個(gè)方法的有效性,研究團(tuán)隊(duì)在數(shù)學(xué)推理任務(wù)上進(jìn)行了大規(guī)模實(shí)驗(yàn)。他們選擇了MATH基準(zhǔn)測試,這是一個(gè)包含高中數(shù)學(xué)競賽難題的數(shù)據(jù)集,被認(rèn)為是測試AI數(shù)學(xué)推理能力的黃金標(biāo)準(zhǔn)。
實(shí)驗(yàn)設(shè)計(jì)非常嚴(yán)謹(jǐn)。研究團(tuán)隊(duì)使用了兩個(gè)不同的模型:Llama-3.1-8B-Instruct和Qwen-2.5-3B-base,以確保結(jié)果的普適性。他們還使用了兩個(gè)不同的訓(xùn)練數(shù)據(jù)集:MATH+DAPO和MATH+Numina 1.5,進(jìn)一步驗(yàn)證方法的穩(wěn)健性。
為了強(qiáng)調(diào)從負(fù)面群組學(xué)習(xí)的重要性,實(shí)驗(yàn)采用了相當(dāng)大的群組大小(每個(gè)問題生成16個(gè)答案),這增加了出現(xiàn)全錯(cuò)群組的概率。每次梯度更新使用512個(gè)軌跡(32個(gè)問題×16個(gè)樣本),訓(xùn)練過程持續(xù)1600多步,遠(yuǎn)超許多同類研究的訓(xùn)練長度。
實(shí)驗(yàn)結(jié)果令人印象深刻。在Llama-3.1-8B-Instruct上,新方法在Pass@1指標(biāo)上從54.09%提升到56.63%,在Pass@16指標(biāo)上從72.70%提升到75.34%。在Qwen-2.5-3B-base上,Pass@1從67.06%提升到68.59%,Pass@16從82.67%提升到84.44%。
特別值得注意的是,在數(shù)學(xué)難題(Level 4-5)上的改進(jìn)更加顯著。這證實(shí)了研究團(tuán)隊(duì)的假設(shè):負(fù)面群組往往對應(yīng)于困難問題,而有效利用這些群組能夠顯著提升在困難問題上的表現(xiàn)。
實(shí)驗(yàn)還包含了詳細(xì)的消融研究,分別測試了僅修改混合組中錯(cuò)誤答案和僅利用負(fù)面組的效果。結(jié)果顯示,兩種改進(jìn)都有貢獻(xiàn),但負(fù)面組的貢獻(xiàn)更為顯著,證明了研究的核心價(jià)值。
**五、從技術(shù)突破到廣闊前景:重新定義AI學(xué)習(xí)的未來**
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面的改進(jìn)。它代表了AI學(xué)習(xí)范式的一個(gè)重要轉(zhuǎn)變:從簡單的對錯(cuò)判斷轉(zhuǎn)向更細(xì)致的置信度感知學(xué)習(xí)。
從實(shí)用角度來看,這個(gè)方法幾乎可以無縫集成到現(xiàn)有的訓(xùn)練流程中。它不需要額外的模型或復(fù)雜的架構(gòu)修改,只需要調(diào)整獎(jiǎng)勵(lì)計(jì)算方式。唯一的超參數(shù)是用來平衡混合組和負(fù)面組貢獻(xiàn)的權(quán)重α,研究中設(shè)為0.25并在所有實(shí)驗(yàn)中保持穩(wěn)定。
從理論角度來看,這項(xiàng)工作在強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)之間建立了新的橋梁。它表明,看似不同的學(xué)習(xí)范式在數(shù)學(xué)上可能是等價(jià)的,這為未來的算法設(shè)計(jì)開辟了新的思路。
研究的影響還體現(xiàn)在資源效率上。通過有效利用之前被浪費(fèi)的計(jì)算資源,這個(gè)方法本質(zhì)上是"免費(fèi)"的性能提升。在大規(guī)模AI訓(xùn)練成本日益高昂的今天,這種效率改進(jìn)具有重要的經(jīng)濟(jì)價(jià)值。
更深層次地看,這項(xiàng)研究挑戰(zhàn)了"失敗就是完全無用"的傳統(tǒng)觀念。它告訴我們,即使是錯(cuò)誤的嘗試也包含有價(jià)值的信息,關(guān)鍵是如何正確地提取和利用這些信息。這個(gè)理念不僅適用于AI系統(tǒng),也為人類學(xué)習(xí)提供了新的啟示。
研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前方法的局限性。理論框架雖然支持非二元獎(jiǎng)勵(lì),但實(shí)驗(yàn)主要集中在二元情況。如何在更復(fù)雜的獎(jiǎng)勵(lì)結(jié)構(gòu)中應(yīng)用這個(gè)方法,以及如何在不需要超參數(shù)的情況下自動(dòng)平衡不同信號的貢獻(xiàn),都是值得進(jìn)一步探索的方向。
此外,框架的偏好感知擴(kuò)展展示了更大的可能性。研究團(tuán)隊(duì)在附錄中展示了如何將長度偏好等因素自然地集成到框架中,這為未來的個(gè)性化和偏好學(xué)習(xí)開辟了道路。
說到底,這項(xiàng)研究告訴我們一個(gè)深刻的道理:在AI學(xué)習(xí)的世界里,沒有真正無用的經(jīng)歷,只有沒有被正確理解和利用的信息。通過重新審視"失敗"的價(jià)值,我們不僅能讓AI系統(tǒng)學(xué)得更好,也能讓整個(gè)學(xué)習(xí)過程變得更加高效和經(jīng)濟(jì)。
對于普通人來說,這項(xiàng)研究的影響可能會在未來幾年內(nèi)逐漸顯現(xiàn)。更強(qiáng)大的數(shù)學(xué)推理AI將能更好地輔助教育、科學(xué)研究和工程設(shè)計(jì)。而這種"從錯(cuò)誤中學(xué)習(xí)"的理念,也許能啟發(fā)我們重新思考人類的學(xué)習(xí)方式,讓我們更好地從失敗中汲取智慧。
那些對技術(shù)細(xì)節(jié)感興趣的讀者,可以通過論文編號arXiv:2510.08696v1查找完整的技術(shù)報(bào)告,深入了解這個(gè)方法的數(shù)學(xué)基礎(chǔ)和實(shí)現(xiàn)細(xì)節(jié)。
Q&A
Q1:LENS方法和傳統(tǒng)的GRPO算法相比有什么主要優(yōu)勢?
A:LENS的最大優(yōu)勢是能夠有效利用之前被完全浪費(fèi)的"負(fù)面群組"(全部答案都錯(cuò)誤的組合)。傳統(tǒng)GRPO會忽略這些組合,但LENS通過置信度加權(quán)的方式給錯(cuò)誤答案分配不同的獎(jiǎng)勵(lì),讓AI從錯(cuò)誤中學(xué)習(xí)。實(shí)驗(yàn)顯示這能帶來2-3%的性能提升,特別是在困難問題上效果更明顯。
Q2:為什么AI對錯(cuò)誤答案的自信程度很重要?
A:AI對錯(cuò)誤答案過分自信是一個(gè)嚴(yán)重問題,因?yàn)檫@表明系統(tǒng)沒有正確認(rèn)識到自己的不確定性。LENS方法會對高置信度的錯(cuò)誤答案給予更重的懲罰,鼓勵(lì)A(yù)I在不確定時(shí)保持謙遜,這有助于提高系統(tǒng)的可靠性和安全性。
Q3:這個(gè)方法可以應(yīng)用到其他AI任務(wù)中嗎?
A:理論上可以。LENS的核心思想是從負(fù)樣本中提取有價(jià)值信息,這個(gè)原理可以應(yīng)用到任何有明確對錯(cuò)判斷的AI任務(wù)中,比如代碼生成、問答系統(tǒng)等。不過目前的實(shí)驗(yàn)主要集中在數(shù)學(xué)推理上,其他領(lǐng)域的應(yīng)用還需要進(jìn)一步研究和驗(yàn)證。





京公網(wǎng)安備 11011402013531號