![]()
這項(xiàng)由浙江大學(xué)的楊神智、朱光成等研究者與螞蟻集團(tuán)的鄭星等人合作完成的研究發(fā)表于2025年12月,論文編號(hào)為arXiv:2512.13106v1。研究團(tuán)隊(duì)提出了一種名為TRAPO的創(chuàng)新訓(xùn)練框架,能夠讓大型語言模型僅用極少量的標(biāo)注數(shù)據(jù)就獲得接近甚至超越傳統(tǒng)方法的推理能力。
當(dāng)我們談?wù)撚?xùn)練AI模型的推理能力時(shí),就像教一個(gè)學(xué)生學(xué)數(shù)學(xué)一樣。傳統(tǒng)的方法需要大量帶有標(biāo)準(zhǔn)答案的習(xí)題,就好比老師準(zhǔn)備了成千上萬道有答案的練習(xí)題供學(xué)生練習(xí)。但這種方法有個(gè)致命缺點(diǎn):準(zhǔn)備這么多標(biāo)準(zhǔn)答案需要耗費(fèi)巨大的人力和時(shí)間成本,特別是在醫(yī)學(xué)、金融等專業(yè)領(lǐng)域,獲得準(zhǔn)確答案更是難上加難。
研究人員發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:當(dāng)AI模型在學(xué)習(xí)過程中表現(xiàn)出相似的"學(xué)習(xí)軌跡"時(shí),往往意味著它們掌握了相同的推理模式。這就像兩個(gè)學(xué)生在解同一類數(shù)學(xué)題時(shí),如果他們的解題思路和步驟相似,通常說明他們都掌握了正確的解題方法。基于這個(gè)洞察,TRAPO框架應(yīng)運(yùn)而生。
TRAPO的核心思想可以用"師生互助學(xué)習(xí)"來比喻。少量帶標(biāo)準(zhǔn)答案的題目就像經(jīng)驗(yàn)豐富的老師,而大量沒有標(biāo)準(zhǔn)答案的題目則像是同班同學(xué)。TRAPO會(huì)觀察每個(gè)"學(xué)生"(無標(biāo)注樣本)在學(xué)習(xí)過程中的表現(xiàn)軌跡,找出那些學(xué)習(xí)模式與"老師"(有標(biāo)注樣本)相似的"同學(xué)",然后讓這些表現(xiàn)良好的"同學(xué)"也參與到教學(xué)過程中。
一、突破傳統(tǒng)訓(xùn)練瓶頸的新思路
在人工智能領(lǐng)域,強(qiáng)化學(xué)習(xí)一直是訓(xùn)練模型推理能力的重要方法。傳統(tǒng)的強(qiáng)化學(xué)習(xí)依賴大量帶有準(zhǔn)確答案的訓(xùn)練數(shù)據(jù),這種方法被稱為"監(jiān)督強(qiáng)化學(xué)習(xí)"。就像一個(gè)嚴(yán)格的數(shù)學(xué)老師,必須為每道練習(xí)題都提供標(biāo)準(zhǔn)答案,學(xué)生通過對比自己的答案和標(biāo)準(zhǔn)答案來判斷對錯(cuò),進(jìn)而調(diào)整解題策略。
然而這種方法面臨著一個(gè)嚴(yán)重問題:獲得大量高質(zhì)量的標(biāo)注數(shù)據(jù)成本極高。在數(shù)學(xué)推理領(lǐng)域,每個(gè)問題都需要專業(yè)人員提供準(zhǔn)確答案;在更復(fù)雜的領(lǐng)域如醫(yī)學(xué)診斷或法律分析,標(biāo)注成本更是天文數(shù)字。為了解決這個(gè)問題,研究者們開始探索無監(jiān)督強(qiáng)化學(xué)習(xí)方法,試圖讓模型在沒有標(biāo)準(zhǔn)答案的情況下自己學(xué)會(huì)推理。
無監(jiān)督方法的基本思路是讓模型通過內(nèi)部一致性來評判答案質(zhì)量。比如讓模型對同一個(gè)問題生成多個(gè)答案,然后采用"少數(shù)服從多數(shù)"的原則,或者根據(jù)模型對自己答案的信心程度來判斷答案好壞。這種方法就像讓學(xué)生們自己組成學(xué)習(xí)小組,通過討論和投票來決定答案的對錯(cuò)。
但是,無監(jiān)督方法存在一個(gè)致命缺陷:它容易陷入"錯(cuò)誤共識(shí)"的陷阱。當(dāng)模型在訓(xùn)練后期開始產(chǎn)生系統(tǒng)性偏見時(shí),它可能會(huì)越來越自信地給出錯(cuò)誤答案。這就像一群學(xué)生如果一開始就理解錯(cuò)了某個(gè)概念,他們在討論時(shí)會(huì)互相強(qiáng)化這種錯(cuò)誤理解,最終形成穩(wěn)固但錯(cuò)誤的共識(shí)。研究團(tuán)隊(duì)將這種現(xiàn)象稱為"模型坍塌"。
TRAPO的創(chuàng)新之處在于提出了一種半監(jiān)督的解決方案。它巧妙地結(jié)合了監(jiān)督和無監(jiān)督兩種方法的優(yōu)勢:用少量標(biāo)注數(shù)據(jù)作為"指南針"來指引方向,用大量無標(biāo)注數(shù)據(jù)作為"練習(xí)材料"來提升能力。這種方法不僅大大降低了標(biāo)注成本,還能避免無監(jiān)督方法的模型坍塌問題。
研究結(jié)果令人震撼:使用僅1000個(gè)標(biāo)注樣本和3000個(gè)無標(biāo)注樣本,TRAPO就能達(dá)到42.6%的平均準(zhǔn)確率,超過了使用45000個(gè)無標(biāo)注樣本的最佳無監(jiān)督方法的38.3%準(zhǔn)確率。更令人驚喜的是,當(dāng)使用4000個(gè)標(biāo)注樣本和12000個(gè)無標(biāo)注樣本時(shí),TRAPO甚至超越了使用全部45000個(gè)標(biāo)注樣本的完全監(jiān)督方法,而標(biāo)注數(shù)據(jù)使用量僅為后者的十分之一。
二、學(xué)習(xí)軌跡相似性:發(fā)現(xiàn)可靠樣本的關(guān)鍵
TRAPO框架的核心創(chuàng)新在于"軌跡相似性匹配"這一概念。為了理解這個(gè)概念,我們可以把AI模型的學(xué)習(xí)過程想象成學(xué)生解題能力的逐步提升。
當(dāng)一個(gè)學(xué)生在學(xué)習(xí)數(shù)學(xué)時(shí),我們可以記錄他每次考試的正確率變化。比如第一次考試正確率是20%,第二次是35%,第三次是50%,以此類推。這個(gè)正確率隨時(shí)間的變化軌跡就反映了這個(gè)學(xué)生的學(xué)習(xí)模式和能力發(fā)展路徑。如果兩個(gè)學(xué)生的學(xué)習(xí)軌跡相似,比如都是穩(wěn)步上升且上升速度相近,那么他們很可能掌握了相似的解題方法和思維模式。
TRAPO正是基于這個(gè)觀察設(shè)計(jì)的。對于每個(gè)訓(xùn)練樣本,無論是有標(biāo)注的還是無標(biāo)注的,TRAPO都會(huì)追蹤模型在處理該樣本時(shí)的"通過率軌跡"——也就是模型在不同訓(xùn)練階段對該樣本給出正確答案的比例變化。
具體來說,在每個(gè)訓(xùn)練輪次中,TRAPO會(huì)讓模型對每個(gè)問題生成多個(gè)答案(比如8個(gè)),然后計(jì)算其中正確答案的比例。對于有標(biāo)注的樣本,正確性可以通過與標(biāo)準(zhǔn)答案比較來確定;對于無標(biāo)注的樣本,TRAPO使用"多數(shù)投票"的方式生成偽標(biāo)簽,即把最常出現(xiàn)的答案當(dāng)作正確答案。
隨著訓(xùn)練進(jìn)行,每個(gè)樣本都會(huì)積累一個(gè)"通過率軌跡"。TRAPO維護(hù)一個(gè)"可靠軌跡數(shù)據(jù)庫",最初包含所有有標(biāo)注樣本的軌跡,這些軌跡代表了"正確的學(xué)習(xí)模式"。然后,TRAPO會(huì)計(jì)算每個(gè)無標(biāo)注樣本的軌跡與這個(gè)可靠數(shù)據(jù)庫中平均軌跡的相似度。
相似度計(jì)算使用的是余弦相似度,這是一個(gè)衡量兩個(gè)向量方向一致性的數(shù)學(xué)工具。簡單來說,如果兩個(gè)學(xué)習(xí)軌跡的"形狀"相似——比如都是先慢后快地提升,或者都保持穩(wěn)定的上升趨勢——那么它們的余弦相似度就會(huì)很高。
TRAPO設(shè)置了兩個(gè)篩選標(biāo)準(zhǔn)來選擇可靠的無標(biāo)注樣本。第一個(gè)標(biāo)準(zhǔn)是"取前p%",即選擇相似度最高的一定比例的樣本。第二個(gè)標(biāo)準(zhǔn)是"閾值篩選",即選擇相似度超過某個(gè)固定閾值的所有樣本。這種雙重篩選機(jī)制既保證了選出的樣本質(zhì)量,又避免了過于保守而錯(cuò)失有價(jià)值的樣本。
被選中的可靠無標(biāo)注樣本會(huì)被加入到訓(xùn)練過程中,它們的軌跡也會(huì)更新可靠軌跡數(shù)據(jù)庫,形成一個(gè)正向循環(huán)。隨著訓(xùn)練進(jìn)行,數(shù)據(jù)庫包含的可靠軌跡越來越多,TRAPO對哪些樣本可靠的判斷也越來越準(zhǔn)確。
這種方法的巧妙之處在于,它不是簡單地相信模型的自信度或多數(shù)投票結(jié)果,而是通過學(xué)習(xí)動(dòng)態(tài)來判斷樣本的可靠性。一個(gè)樣本即使在某個(gè)時(shí)刻看起來不太對,但如果它的學(xué)習(xí)軌跡與已知正確樣本相似,TRAPO仍會(huì)認(rèn)為它可能包含有價(jià)值的信息。相反,即使某個(gè)樣本當(dāng)前看起來很有信心,但如果其軌跡與可靠樣本差異很大,TRAPO也會(huì)保持謹(jǐn)慎。
三、實(shí)驗(yàn)驗(yàn)證:少量數(shù)據(jù)創(chuàng)造最優(yōu)效果
研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測試上驗(yàn)證了TRAPO的效果,結(jié)果表明這種方法確實(shí)能用極少的標(biāo)注數(shù)據(jù)達(dá)到卓越的性能。
實(shí)驗(yàn)設(shè)計(jì)采用了嚴(yán)格的對比框架。研究者選擇了六個(gè)廣泛使用的數(shù)學(xué)推理數(shù)據(jù)集作為域內(nèi)測試,包括AIME 2024/2025、AMC、MATH-500、Minerva和Olympiad等國際知名數(shù)學(xué)競賽題目。同時(shí),他們還選擇了三個(gè)域外測試集(ARC-c、GPQA-diamond、MMLU-pro)來評估模型的泛化能力,這些測試集涵蓋了開放領(lǐng)域推理、研究生水平科學(xué)問題和學(xué)術(shù)推理等不同類型的任務(wù)。
實(shí)驗(yàn)的基礎(chǔ)模型是Qwen2.5-Math-7B,這是一個(gè)專門針對數(shù)學(xué)推理優(yōu)化的大型語言模型。研究團(tuán)隊(duì)將其與多種對比方法進(jìn)行比較,包括無監(jiān)督強(qiáng)化學(xué)習(xí)方法(如TTRL、自信度最大化、熵最小化等)、監(jiān)督強(qiáng)化學(xué)習(xí)方法,以及簡單的半監(jiān)督組合方法。
最令人印象深刻的實(shí)驗(yàn)結(jié)果來自于數(shù)據(jù)效率對比。當(dāng)TRAPO使用1000個(gè)標(biāo)注樣本和3000個(gè)無標(biāo)注樣本進(jìn)行訓(xùn)練時(shí),在域內(nèi)測試中獲得了42.6%的平均準(zhǔn)確率,而使用45000個(gè)無標(biāo)注樣本的最佳無監(jiān)督方法僅達(dá)到38.3%的準(zhǔn)確率。這意味著TRAPO用僅僅千分之一的標(biāo)注數(shù)據(jù),就超越了需要大量無標(biāo)注數(shù)據(jù)的傳統(tǒng)方法。
更令人驚訝的發(fā)現(xiàn)是TRAPO在擴(kuò)大數(shù)據(jù)規(guī)模時(shí)的表現(xiàn)。當(dāng)使用4000個(gè)標(biāo)注樣本和12000個(gè)無標(biāo)注樣本時(shí),TRAPO在域內(nèi)測試中達(dá)到45.6%的準(zhǔn)確率,在域外測試中達(dá)到59.7%的準(zhǔn)確率。作為對比,使用全部45000個(gè)標(biāo)注樣本的完全監(jiān)督方法分別只達(dá)到45.5%和57.3%的準(zhǔn)確率。這個(gè)結(jié)果表明,TRAPO不僅在數(shù)據(jù)效率上有優(yōu)勢,在絕對性能上也能超越傳統(tǒng)方法。
研究團(tuán)隊(duì)還進(jìn)行了跨域泛化實(shí)驗(yàn),這個(gè)實(shí)驗(yàn)特別有意思。他們用1000個(gè)數(shù)學(xué)領(lǐng)域的標(biāo)注樣本作為指導(dǎo),配合1000個(gè)非數(shù)學(xué)領(lǐng)域的無標(biāo)注樣本進(jìn)行訓(xùn)練。這種設(shè)置模擬了現(xiàn)實(shí)中常見的情況:我們在某個(gè)領(lǐng)域有少量高質(zhì)量數(shù)據(jù),但希望模型能夠處理其他相關(guān)領(lǐng)域的問題。
實(shí)驗(yàn)結(jié)果顯示,即使在這種跨域設(shè)置下,TRAPO仍然表現(xiàn)出色。在域內(nèi)數(shù)學(xué)推理任務(wù)中達(dá)到41.0%的準(zhǔn)確率,在域外任務(wù)中達(dá)到56.9%的準(zhǔn)確率,分別比最佳無監(jiān)督基線高出1.8%和3.5%。這個(gè)結(jié)果證明了TRAPO的軌跡匹配機(jī)制確實(shí)能夠識(shí)別出跨域的可靠推理模式。
為了驗(yàn)證方法的普適性,研究團(tuán)隊(duì)還在其他模型上測試了TRAPO。在LLaMA-3.1-8B-Instruct模型上,TRAPO同樣表現(xiàn)出一致的改進(jìn)效果。在DeepSeek-R1-Distill-Qwen-1.5B這個(gè)更小的模型上,TRAPO也展現(xiàn)了良好的泛化能力,證明這種方法不依賴于特定的模型架構(gòu)。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分析了TRAPO各個(gè)組件的貢獻(xiàn)。他們發(fā)現(xiàn),軌跡相似性匹配是性能提升的關(guān)鍵因素,而簡單的半監(jiān)督組合(直接將監(jiān)督和無監(jiān)督目標(biāo)相加)只能帶來邊際改進(jìn)。這驗(yàn)證了他們的核心假設(shè):重要的不是簡單地結(jié)合兩種方法,而是要找到正確的方式來識(shí)別和利用可靠的無標(biāo)注樣本。
四、理論基礎(chǔ):為什么學(xué)習(xí)軌跡如此重要
TRAPO方法的成功并非偶然,而是有著深厚的理論基礎(chǔ)。研究團(tuán)隊(duì)從神經(jīng)切線核理論和域適應(yīng)理論兩個(gè)角度為這種方法提供了嚴(yán)格的數(shù)學(xué)證明。
神經(jīng)切線核理論是近年來深度學(xué)習(xí)理論研究的重要突破。簡單來說,這個(gè)理論表明,當(dāng)神經(jīng)網(wǎng)絡(luò)足夠?qū)挘ㄓ凶銐蚨嗟膮?shù))時(shí),網(wǎng)絡(luò)的訓(xùn)練行為可以用一個(gè)固定的核函數(shù)來近似。這就像用一個(gè)萬能公式來預(yù)測網(wǎng)絡(luò)在訓(xùn)練過程中的變化。
在TRAPO的情境下,這個(gè)理論有著特殊的含義。當(dāng)兩個(gè)推理問題在語義上相似時(shí),模型在處理它們時(shí)的"梯度方向"也會(huì)相似。梯度可以理解為模型參數(shù)的調(diào)整方向,就像指南針指向的方向一樣。如果兩個(gè)問題的梯度方向相似,意味著模型在學(xué)習(xí)解決這兩個(gè)問題時(shí)采用了相似的策略。
研究團(tuán)隊(duì)證明了一個(gè)重要定理:在神經(jīng)切線核框架下,如果兩個(gè)問題的梯度具有高度相似性,那么它們的學(xué)習(xí)軌跡(通過率隨時(shí)間的變化)也會(huì)高度相似。這為TRAPO的核心假設(shè)提供了理論支撐——學(xué)習(xí)軌跡相似確實(shí)反映了推理模式的相似性。
更重要的是,研究團(tuán)隊(duì)還證明了軌跡一致性如何轉(zhuǎn)化為泛化性能的改進(jìn)。他們建立了一個(gè)泛化誤差界限,表明當(dāng)無標(biāo)注樣本的軌跡與標(biāo)注樣本軌跡越相似,模型在目標(biāo)任務(wù)上的泛化誤差就越小。這個(gè)界限包含幾個(gè)關(guān)鍵組成部分:源域(標(biāo)注數(shù)據(jù))上的經(jīng)驗(yàn)風(fēng)險(xiǎn)、軌跡不一致性帶來的懲罰、以及模型置信度相關(guān)的正則化項(xiàng)。
這個(gè)理論結(jié)果非常重要,因?yàn)樗粌H解釋了TRAPO為什么有效,還為進(jìn)一步改進(jìn)提供了指導(dǎo)。比如,理論表明提高模型在標(biāo)注數(shù)據(jù)上的性能、增強(qiáng)軌跡一致性、以及提升模型置信度都有助于改善最終的泛化性能。
研究團(tuán)隊(duì)還從域適應(yīng)的角度分析了TRAPO。域適應(yīng)是機(jī)器學(xué)習(xí)中的一個(gè)重要概念,它研究如何讓在一個(gè)領(lǐng)域訓(xùn)練的模型能夠在另一個(gè)相關(guān)領(lǐng)域工作。在TRAPO的設(shè)定中,標(biāo)注數(shù)據(jù)可以看作源域,無標(biāo)注數(shù)據(jù)可以看作目標(biāo)域。
傳統(tǒng)的域適應(yīng)方法通常需要顯式地對齊兩個(gè)域的特征分布,這在實(shí)踐中往往很困難。TRAPO的創(chuàng)新在于,它通過軌跡匹配隱式地實(shí)現(xiàn)了域?qū)R。當(dāng)無標(biāo)注樣本的學(xué)習(xí)軌跡與標(biāo)注樣本相似時(shí),它們在某種意義上屬于"同一個(gè)域",因此可以安全地用于訓(xùn)練。
理論分析還揭示了TRAPO的一個(gè)重要性質(zhì):隨著訓(xùn)練進(jìn)行,可靠軌跡數(shù)據(jù)庫會(huì)變得越來越準(zhǔn)確,從而形成一個(gè)正向反饋循環(huán)。這解釋了為什么TRAPO能夠穩(wěn)定地改進(jìn)性能,而不會(huì)像無監(jiān)督方法那樣出現(xiàn)模型坍塌。
五、實(shí)際應(yīng)用前景與局限性
TRAPO方法的成功為人工智能在資源受限環(huán)境下的應(yīng)用開辟了新的可能性。在許多實(shí)際應(yīng)用場景中,獲得大量高質(zhì)量標(biāo)注數(shù)據(jù)既困難又昂貴,TRAPO提供了一個(gè)切實(shí)可行的解決方案。
在醫(yī)療領(lǐng)域,TRAPO的潛在價(jià)值尤為突出。醫(yī)療診斷數(shù)據(jù)的標(biāo)注需要專業(yè)醫(yī)生投入大量時(shí)間,而且不同醫(yī)生的判斷可能存在差異。如果能夠用少量由權(quán)威專家標(biāo)注的病例作為"指南針",結(jié)合大量未標(biāo)注的醫(yī)療記錄進(jìn)行訓(xùn)練,就可能大大降低構(gòu)建醫(yī)療AI系統(tǒng)的成本。
金融風(fēng)控領(lǐng)域也面臨類似挑戰(zhàn)。雖然金融機(jī)構(gòu)擁有海量交易數(shù)據(jù),但準(zhǔn)確標(biāo)注哪些交易涉及欺詐需要昂貴的人工審查。TRAPO可以利用少量確認(rèn)的欺詐案例來識(shí)別具有相似模式的可疑交易,從而提升整個(gè)風(fēng)控系統(tǒng)的效率。
在法律服務(wù)領(lǐng)域,TRAPO可以用于訓(xùn)練法律文檔分析和案例推理系統(tǒng)。法律專家的時(shí)間寶貴,但法律文檔數(shù)量龐大。通過用少量專家標(biāo)注的關(guān)鍵案例指導(dǎo)大量法律文檔的學(xué)習(xí),可以構(gòu)建更智能的法律AI助手。
教育技術(shù)也是TRAPO的一個(gè)重要應(yīng)用方向。個(gè)性化學(xué)習(xí)系統(tǒng)需要理解每個(gè)學(xué)生的學(xué)習(xí)模式,但收集每個(gè)學(xué)生的詳細(xì)學(xué)習(xí)數(shù)據(jù)成本很高。TRAPO可以用少量精心設(shè)計(jì)的測試題目作為"錨點(diǎn)",結(jié)合學(xué)生在其他練習(xí)中的表現(xiàn)來更好地評估和預(yù)測學(xué)習(xí)效果。
然而,TRAPO也存在一些局限性需要注意。首先,這種方法對標(biāo)注數(shù)據(jù)的質(zhì)量要求很高。如果用作"指南針"的標(biāo)注數(shù)據(jù)本身存在錯(cuò)誤或偏見,可能會(huì)誤導(dǎo)整個(gè)學(xué)習(xí)過程。因此,在應(yīng)用TRAPO時(shí),需要特別注意標(biāo)注數(shù)據(jù)的選擇和質(zhì)量控制。
其次,TRAPO的效果在很大程度上依賴于標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)之間的相關(guān)性。如果兩者的分布差異太大,軌跡匹配可能失效。這在跨域應(yīng)用中尤其需要注意,可能需要針對性的預(yù)處理或特殊設(shè)計(jì)。
計(jì)算成本是另一個(gè)考慮因素。雖然TRAPO減少了標(biāo)注成本,但需要額外的計(jì)算來追蹤學(xué)習(xí)軌跡和計(jì)算相似度。在大規(guī)模應(yīng)用中,這些額外計(jì)算可能成為瓶頸。
最后,TRAPO目前主要在推理任務(wù)上得到驗(yàn)證,其在其他類型任務(wù)(如圖像生成、語言翻譯等)上的效果還有待進(jìn)一步研究。不同類型的任務(wù)可能需要不同的軌跡定義和相似度計(jì)算方法。
六、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)要點(diǎn)
TRAPO的成功實(shí)現(xiàn)需要仔細(xì)處理多個(gè)技術(shù)細(xì)節(jié)。理解這些細(xì)節(jié)對于實(shí)際應(yīng)用這種方法至關(guān)重要。
軌跡計(jì)算是TRAPO的核心組件。對于每個(gè)訓(xùn)練樣本,系統(tǒng)需要在每個(gè)訓(xùn)練輪次記錄模型的表現(xiàn)。具體來說,模型會(huì)對同一個(gè)問題生成多個(gè)答案(通常是8個(gè)),然后計(jì)算其中正確答案的比例。這個(gè)比例就是該輪次的"通過率"。
通過率的計(jì)算方式略有不同,取決于樣本是否有標(biāo)注。對于有標(biāo)注的樣本,通過率就是生成答案中與標(biāo)準(zhǔn)答案匹配的比例。對于無標(biāo)注樣本,TRAPO使用多數(shù)投票機(jī)制:把出現(xiàn)次數(shù)最多的答案當(dāng)作"偽標(biāo)準(zhǔn)答案",然后計(jì)算與這個(gè)偽答案匹配的生成答案比例。
隨著訓(xùn)練進(jìn)行,每個(gè)樣本會(huì)積累一個(gè)通過率序列,比如[0.2, 0.3, 0.5, 0.7],表示在前四個(gè)訓(xùn)練輪次中的通過率變化。這個(gè)序列就是所謂的"學(xué)習(xí)軌跡"。
相似度計(jì)算使用余弦相似度,這是一個(gè)標(biāo)準(zhǔn)的向量相似性度量。在計(jì)算前,軌跡向量會(huì)被標(biāo)準(zhǔn)化,確保比較的是軌跡的"形狀"而非絕對數(shù)值。研究團(tuán)隊(duì)發(fā)現(xiàn),相比于歐幾里得距離等其他度量,余弦相似度更能捕捉學(xué)習(xí)模式的相似性。
樣本選擇策略是TRAPO的另一個(gè)關(guān)鍵設(shè)計(jì)。系統(tǒng)維護(hù)一個(gè)"可靠軌跡數(shù)據(jù)庫",最初包含所有標(biāo)注樣本的軌跡。在每個(gè)訓(xùn)練輪次,系統(tǒng)會(huì)計(jì)算每個(gè)無標(biāo)注樣本軌跡與數(shù)據(jù)庫中平均軌跡的相似度,然后使用兩個(gè)標(biāo)準(zhǔn)選擇可靠樣本:選取相似度最高的前p%樣本,以及所有相似度超過閾值Γ的樣本。
溫?zé)釂?dòng)機(jī)制確保系統(tǒng)在早期訓(xùn)練階段的穩(wěn)定性。在前幾個(gè)訓(xùn)練輪次中,TRAPO只使用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,同時(shí)收集無標(biāo)注樣本的軌跡信息。這個(gè)"預(yù)熱"階段讓模型建立基礎(chǔ)能力,避免在訓(xùn)練初期因?yàn)檐壽E信息不足而做出錯(cuò)誤判斷。
參數(shù)設(shè)置在實(shí)際應(yīng)用中需要根據(jù)具體情況調(diào)整。研究團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn),前10%的相似度閾值(top-p=0.1)和0.4的固定閾值(Γ=0.4)在多數(shù)情況下效果較好。預(yù)熱階段長度通常設(shè)為8-10個(gè)訓(xùn)練輪次,但具體數(shù)值需要根據(jù)數(shù)據(jù)規(guī)模和任務(wù)復(fù)雜度調(diào)整。
損失函數(shù)的設(shè)計(jì)保持了簡潔性。TRAPO使用標(biāo)準(zhǔn)的GRPO(Group Relative Policy Optimization)目標(biāo)函數(shù),只是在計(jì)算無標(biāo)注數(shù)據(jù)的損失時(shí)加入了選擇掩碼。具體來說,只有被標(biāo)記為"可靠"的無標(biāo)注樣本才會(huì)對梯度更新產(chǎn)生貢獻(xiàn)。
實(shí)現(xiàn)過程中還需要注意內(nèi)存管理。存儲(chǔ)所有樣本的完整軌跡可能消耗大量內(nèi)存,特別是在大規(guī)模數(shù)據(jù)集上。一個(gè)實(shí)用的優(yōu)化是只保留最近若干輪次的軌跡信息,或者使用壓縮的軌跡表示。
并行化處理可以顯著提升訓(xùn)練效率。軌跡相似度計(jì)算是高度并行的操作,可以利用GPU加速。同時(shí),樣本選擇和數(shù)據(jù)庫更新也可以與梯度計(jì)算并行進(jìn)行,減少額外的計(jì)算開銷。
TRAPO框架展現(xiàn)出了良好的模塊化設(shè)計(jì),可以與不同的基礎(chǔ)優(yōu)化算法結(jié)合。研究團(tuán)隊(duì)驗(yàn)證了它與多種無監(jiān)督強(qiáng)化學(xué)習(xí)方法的兼容性,包括熵最小化、自信度最大化和多數(shù)投票等。這種靈活性使得TRAPO可以作為一個(gè)通用的改進(jìn)組件,提升現(xiàn)有方法的效果。
說到底,TRAPO為我們展示了一種全新的思考方式:在機(jī)器學(xué)習(xí)中,有時(shí)候問題不在于我們擁有多少數(shù)據(jù),而在于如何聰明地利用有限的高質(zhì)量數(shù)據(jù)來指導(dǎo)對大量普通數(shù)據(jù)的學(xué)習(xí)。這種"少而精"指導(dǎo)"多而廣"的策略,不僅在技術(shù)上實(shí)現(xiàn)了突破,更在實(shí)用性上為資源受限的AI應(yīng)用開辟了新路徑。
通過巧妙的軌跡匹配機(jī)制,TRAPO證明了AI系統(tǒng)可以像人類學(xué)習(xí)者一樣,通過觀察學(xué)習(xí)過程中的模式和規(guī)律來判斷信息的可靠性。這種能力讓AI在面對有限監(jiān)督信號(hào)時(shí)仍能保持高效學(xué)習(xí),避免被錯(cuò)誤信息誤導(dǎo)。
對于普通用戶而言,TRAPO的成功意味著未來可能出現(xiàn)更多高質(zhì)量但成本較低的AI應(yīng)用。無論是個(gè)人助手、教育工具還是專業(yè)分析軟件,都可能因?yàn)檫@種高效的訓(xùn)練方法而變得更加智能和實(shí)用,同時(shí)保持相對親民的價(jià)格。這項(xiàng)研究發(fā)表在arXiv平臺(tái)上,編號(hào)為2512.13106v1,有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過該編號(hào)查找完整論文。
Q&A
Q1:TRAPO是什么?它解決了什么問題?
A:TRAPO是由浙江大學(xué)和螞蟻集團(tuán)聯(lián)合開發(fā)的半監(jiān)督強(qiáng)化學(xué)習(xí)框架,主要解決大型語言模型訓(xùn)練中標(biāo)注數(shù)據(jù)成本過高的問題。它能讓AI模型用極少量的標(biāo)準(zhǔn)答案配合大量無標(biāo)準(zhǔn)答案的數(shù)據(jù)進(jìn)行學(xué)習(xí),就像用少數(shù)幾個(gè)好老師指導(dǎo)一大群學(xué)生互相學(xué)習(xí)。
Q2:TRAPO如何判斷哪些無標(biāo)注數(shù)據(jù)是可靠的?
A:TRAPO通過追蹤每個(gè)樣本在訓(xùn)練過程中的"學(xué)習(xí)軌跡"來判斷可靠性。它觀察模型在處理不同問題時(shí)正確率的變化模式,如果某個(gè)無標(biāo)注樣本的學(xué)習(xí)軌跡與已知正確樣本相似,就認(rèn)為這個(gè)樣本包含有價(jià)值的信息,可以用于訓(xùn)練。
Q3:使用TRAPO方法能節(jié)省多少標(biāo)注成本?
A:實(shí)驗(yàn)顯示TRAPO能大幅節(jié)省標(biāo)注成本,用4000個(gè)標(biāo)注樣本配合12000個(gè)無標(biāo)注樣本的效果,甚至超過了使用45000個(gè)全標(biāo)注樣本的傳統(tǒng)方法。這意味著標(biāo)注工作量可以減少到原來的十分之一,同時(shí)還能獲得更好的效果。





京公網(wǎng)安備 11011402013531號(hào)