當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

浙大與螞蟻集團(tuán)突破：少量數(shù)據(jù)提升AI語言推理能力

IP屬地中國·北京 科技行者 時(shí)間：2025-12-19 00:14:05

這項(xiàng)由浙江大學(xué)的楊神智、朱光成等研究者與螞蟻集團(tuán)的鄭星等人合作完成的研究發(fā)表于2025年12月，論文編號(hào)為arXiv:2512.13106v1。研究團(tuán)隊(duì)提出了一種名為TRAPO的創(chuàng)新訓(xùn)練框架，能夠讓大型語言模型僅用極少量的標(biāo)注數(shù)據(jù)就獲得接近甚至超越傳統(tǒng)方法的推理能力。
當(dāng)我們談?wù)撚?xùn)練AI模型的推理能力時(shí)，就像教一個(gè)學(xué)生學(xué)數(shù)學(xué)一樣。傳統(tǒng)的方法需要大量帶有標(biāo)準(zhǔn)答案的習(xí)題，就好比老師準(zhǔn)備了成千上萬道有答案的練習(xí)題供學(xué)生練習(xí)。但這種方法有個(gè)致命缺點(diǎn)：準(zhǔn)備這么多標(biāo)準(zhǔn)答案需要耗費(fèi)巨大的人力和時(shí)間成本，特別是在醫(yī)學(xué)、金融等專業(yè)領(lǐng)域，獲得準(zhǔn)確答案更是難上加難。
研究人員發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象：當(dāng)AI模型在學(xué)習(xí)過程中表現(xiàn)出相似的"學(xué)習(xí)軌跡"時(shí)，往往意味著它們掌握了相同的推理模式。這就像兩個(gè)學(xué)生在解同一類數(shù)學(xué)題時(shí)，如果他們的解題思路和步驟相似，通常說明他們都掌握了正確的解題方法。基于這個(gè)洞察，TRAPO框架應(yīng)運(yùn)而生。
TRAPO的核心思想可以用"師生互助學(xué)習(xí)"來比喻。少量帶標(biāo)準(zhǔn)答案的題目就像經(jīng)驗(yàn)豐富的老師，而大量沒有標(biāo)準(zhǔn)答案的題目則像是同班同學(xué)。TRAPO會(huì)觀察每個(gè)"學(xué)生"（無標(biāo)注樣本）在學(xué)習(xí)過程中的表現(xiàn)軌跡，找出那些學(xué)習(xí)模式與"老師"（有標(biāo)注樣本）相似的"同學(xué)"，然后讓這些表現(xiàn)良好的"同學(xué)"也參與到教學(xué)過程中。
一、突破傳統(tǒng)訓(xùn)練瓶頸的新思路
在人工智能領(lǐng)域，強(qiáng)化學(xué)習(xí)一直是訓(xùn)練模型推理能力的重要方法。傳統(tǒng)的強(qiáng)化學(xué)習(xí)依賴大量帶有準(zhǔn)確答案的訓(xùn)練數(shù)據(jù)，這種方法被稱為"監(jiān)督強(qiáng)化學(xué)習(xí)"。就像一個(gè)嚴(yán)格的數(shù)學(xué)老師，必須為每道練習(xí)題都提供標(biāo)準(zhǔn)答案，學(xué)生通過對比自己的答案和標(biāo)準(zhǔn)答案來判斷對錯(cuò)，進(jìn)而調(diào)整解題策略。
然而這種方法面臨著一個(gè)嚴(yán)重問題：獲得大量高質(zhì)量的標(biāo)注數(shù)據(jù)成本極高。在數(shù)學(xué)推理領(lǐng)域，每個(gè)問題都需要專業(yè)人員提供準(zhǔn)確答案；在更復(fù)雜的領(lǐng)域如醫(yī)學(xué)診斷或法律分析，標(biāo)注成本更是天文數(shù)字。為了解決這個(gè)問題，研究者們開始探索無監(jiān)督強(qiáng)化學(xué)習(xí)方法，試圖讓模型在沒有標(biāo)準(zhǔn)答案的情況下自己學(xué)會(huì)推理。
無監(jiān)督方法的基本思路是讓模型通過內(nèi)部一致性來評判答案質(zhì)量。比如讓模型對同一個(gè)問題生成多個(gè)答案，然后采用"少數(shù)服從多數(shù)"的原則，或者根據(jù)模型對自己答案的信心程度來判斷答案好壞。這種方法就像讓學(xué)生們自己組成學(xué)習(xí)小組，通過討論和投票來決定答案的對錯(cuò)。
但是，無監(jiān)督方法存在一個(gè)致命缺陷：它容易陷入"錯(cuò)誤共識(shí)"的陷阱。當(dāng)模型在訓(xùn)練后期開始產(chǎn)生系統(tǒng)性偏見時(shí)，它可能會(huì)越來越自信地給出錯(cuò)誤答案。這就像一群學(xué)生如果一開始就理解錯(cuò)了某個(gè)概念，他們在討論時(shí)會(huì)互相強(qiáng)化這種錯(cuò)誤理解，最終形成穩(wěn)固但錯(cuò)誤的共識(shí)。研究團(tuán)隊(duì)將這種現(xiàn)象稱為"模型坍塌"。
TRAPO的創(chuàng)新之處在于提出了一種半監(jiān)督的解決方案。它巧妙地結(jié)合了監(jiān)督和無監(jiān)督兩種方法的優(yōu)勢：用少量標(biāo)注數(shù)據(jù)作為"指南針"來指引方向，用大量無標(biāo)注數(shù)據(jù)作為"練習(xí)材料"來提升能力。這種方法不僅大大降低了標(biāo)注成本，還能避免無監(jiān)督方法的模型坍塌問題。
研究結(jié)果令人震撼：使用僅1000個(gè)標(biāo)注樣本和3000個(gè)無標(biāo)注樣本，TRAPO就能達(dá)到42.6%的平均準(zhǔn)確率，超過了使用45000個(gè)無標(biāo)注樣本的最佳無監(jiān)督方法的38.3%準(zhǔn)確率。更令人驚喜的是，當(dāng)使用4000個(gè)標(biāo)注樣本和12000個(gè)無標(biāo)注樣本時(shí)，TRAPO甚至超越了使用全部45000個(gè)標(biāo)注樣本的完全監(jiān)督方法，而標(biāo)注數(shù)據(jù)使用量僅為后者的十分之一。
二、學(xué)習(xí)軌跡相似性：發(fā)現(xiàn)可靠樣本的關(guān)鍵
TRAPO框架的核心創(chuàng)新在于"軌跡相似性匹配"這一概念。為了理解這個(gè)概念，我們可以把AI模型的學(xué)習(xí)過程想象成學(xué)生解題能力的逐步提升。
當(dāng)一個(gè)學(xué)生在學(xué)習(xí)數(shù)學(xué)時(shí)，我們可以記錄他每次考試的正確率變化。比如第一次考試正確率是20%，第二次是35%，第三次是50%，以此類推。這個(gè)正確率隨時(shí)間的變化軌跡就反映了這個(gè)學(xué)生的學(xué)習(xí)模式和能力發(fā)展路徑。如果兩個(gè)學(xué)生的學(xué)習(xí)軌跡相似，比如都是穩(wěn)步上升且上升速度相近，那么他們很可能掌握了相似的解題方法和思維模式。
TRAPO正是基于這個(gè)觀察設(shè)計(jì)的。對于每個(gè)訓(xùn)練樣本，無論是有標(biāo)注的還是無標(biāo)注的，TRAPO都會(huì)追蹤模型在處理該樣本時(shí)的"通過率軌跡"——也就是模型在不同訓(xùn)練階段對該樣本給出正確答案的比例變化。
具體來說，在每個(gè)訓(xùn)練輪次中，TRAPO會(huì)讓模型對每個(gè)問題生成多個(gè)答案（比如8個(gè)），然后計(jì)算其中正確答案的比例。對于有標(biāo)注的樣本，正確性可以通過與標(biāo)準(zhǔn)答案比較來確定；對于無標(biāo)注的樣本，TRAPO使用"多數(shù)投票"的方式生成偽標(biāo)簽，即把最常出現(xiàn)的答案當(dāng)作正確答案。
隨著訓(xùn)練進(jìn)行，每個(gè)樣本都會(huì)積累一個(gè)"通過率軌跡"。TRAPO維護(hù)一個(gè)"可靠軌跡數(shù)據(jù)庫"，最初包含所有有標(biāo)注樣本的軌跡，這些軌跡代表了"正確的學(xué)習(xí)模式"。然后，TRAPO會(huì)計(jì)算每個(gè)無標(biāo)注樣本的軌跡與這個(gè)可靠數(shù)據(jù)庫中平均軌跡的相似度。
相似度計(jì)算使用的是余弦相似度，這是一個(gè)衡量兩個(gè)向量方向一致性的數(shù)學(xué)工具。簡單來說，如果兩個(gè)學(xué)習(xí)軌跡的"形狀"相似——比如都是先慢后快地提升，或者都保持穩(wěn)定的上升趨勢——那么它們的余弦相似度就會(huì)很高。
TRAPO設(shè)置了兩個(gè)篩選標(biāo)準(zhǔn)來選擇可靠的無標(biāo)注樣本。第一個(gè)標(biāo)準(zhǔn)是"取前p%"，即選擇相似度最高的一定比例的樣本。第二個(gè)標(biāo)準(zhǔn)是"閾值篩選"，即選擇相似度超過某個(gè)固定閾值的所有樣本。這種雙重篩選機(jī)制既保證了選出的樣本質(zhì)量，又避免了過于保守而錯(cuò)失有價(jià)值的樣本。
被選中的可靠無標(biāo)注樣本會(huì)被加入到訓(xùn)練過程中，它們的軌跡也會(huì)更新可靠軌跡數(shù)據(jù)庫，形成一個(gè)正向循環(huán)。隨著訓(xùn)練進(jìn)行，數(shù)據(jù)庫包含的可靠軌跡越來越多，TRAPO對哪些樣本可靠的判斷也越來越準(zhǔn)確。
這種方法的巧妙之處在于，它不是簡單地相信模型的自信度或多數(shù)投票結(jié)果，而是通過學(xué)習(xí)動(dòng)態(tài)來判斷樣本的可靠性。一個(gè)樣本即使在某個(gè)時(shí)刻看起來不太對，但如果它的學(xué)習(xí)軌跡與已知正確樣本相似，TRAPO仍會(huì)認(rèn)為它可能包含有價(jià)值的信息。相反，即使某個(gè)樣本當(dāng)前看起來很有信心，但如果其軌跡與可靠樣本差異很大，TRAPO也會(huì)保持謹(jǐn)慎。
三、實(shí)驗(yàn)驗(yàn)證：少量數(shù)據(jù)創(chuàng)造最優(yōu)效果
研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測試上驗(yàn)證了TRAPO的效果，結(jié)果表明這種方法確實(shí)能用極少的標(biāo)注數(shù)據(jù)達(dá)到卓越的性能。
實(shí)驗(yàn)設(shè)計(jì)采用了嚴(yán)格的對比框架。研究者選擇了六個(gè)廣泛使用的數(shù)學(xué)推理數(shù)據(jù)集作為域內(nèi)測試，包括AIME 2024/2025、AMC、MATH-500、Minerva和Olympiad等國際知名數(shù)學(xué)競賽題目。同時(shí)，他們還選擇了三個(gè)域外測試集（ARC-c、GPQA-diamond、MMLU-pro）來評估模型的泛化能力，這些測試集涵蓋了開放領(lǐng)域推理、研究生水平科學(xué)問題和學(xué)術(shù)推理等不同類型的任務(wù)。
實(shí)驗(yàn)的基礎(chǔ)模型是Qwen2.5-Math-7B，這是一個(gè)專門針對數(shù)學(xué)推理優(yōu)化的大型語言模型。研究團(tuán)隊(duì)將其與多種對比方法進(jìn)行比較，包括無監(jiān)督強(qiáng)化學(xué)習(xí)方法（如TTRL、自信度最大化、熵最小化等）、監(jiān)督強(qiáng)化學(xué)習(xí)方法，以及簡單的半監(jiān)督組合方法。
最令人印象深刻的實(shí)驗(yàn)結(jié)果來自于數(shù)據(jù)效率對比。當(dāng)TRAPO使用1000個(gè)標(biāo)注樣本和3000個(gè)無標(biāo)注樣本進(jìn)行訓(xùn)練時(shí)，在域內(nèi)測試中獲得了42.6%的平均準(zhǔn)確率，而使用45000個(gè)無標(biāo)注樣本的最佳無監(jiān)督方法僅達(dá)到38.3%的準(zhǔn)確率。這意味著TRAPO用僅僅千分之一的標(biāo)注數(shù)據(jù)，就超越了需要大量無標(biāo)注數(shù)據(jù)的傳統(tǒng)方法。
更令人驚訝的發(fā)現(xiàn)是TRAPO在擴(kuò)大數(shù)據(jù)規(guī)模時(shí)的表現(xiàn)。當(dāng)使用4000個(gè)標(biāo)注樣本和12000個(gè)無標(biāo)注樣本時(shí)，TRAPO在域內(nèi)測試中達(dá)到45.6%的準(zhǔn)確率，在域外測試中達(dá)到59.7%的準(zhǔn)確率。作為對比，使用全部45000個(gè)標(biāo)注樣本的完全監(jiān)督方法分別只達(dá)到45.5%和57.3%的準(zhǔn)確率。這個(gè)結(jié)果表明，TRAPO不僅在數(shù)據(jù)效率上有優(yōu)勢，在絕對性能上也能超越傳統(tǒng)方法。
研究團(tuán)隊(duì)還進(jìn)行了跨域泛化實(shí)驗(yàn)，這個(gè)實(shí)驗(yàn)特別有意思。他們用1000個(gè)數(shù)學(xué)領(lǐng)域的標(biāo)注樣本作為指導(dǎo)，配合1000個(gè)非數(shù)學(xué)領(lǐng)域的無標(biāo)注樣本進(jìn)行訓(xùn)練。這種設(shè)置模擬了現(xiàn)實(shí)中常見的情況：我們在某個(gè)領(lǐng)域有少量高質(zhì)量數(shù)據(jù)，但希望模型能夠處理其他相關(guān)領(lǐng)域的問題。
實(shí)驗(yàn)結(jié)果顯示，即使在這種跨域設(shè)置下，TRAPO仍然表現(xiàn)出色。在域內(nèi)數(shù)學(xué)推理任務(wù)中達(dá)到41.0%的準(zhǔn)確率，在域外任務(wù)中達(dá)到56.9%的準(zhǔn)確率，分別比最佳無監(jiān)督基線高出1.8%和3.5%。這個(gè)結(jié)果證明了TRAPO的軌跡匹配機(jī)制確實(shí)能夠識(shí)別出跨域的可靠推理模式。
為了驗(yàn)證方法的普適性，研究團(tuán)隊(duì)還在其他模型上測試了TRAPO。在LLaMA-3.1-8B-Instruct模型上，TRAPO同樣表現(xiàn)出一致的改進(jìn)效果。在DeepSeek-R1-Distill-Qwen-1.5B這個(gè)更小的模型上，TRAPO也展現(xiàn)了良好的泛化能力，證明這種方法不依賴于特定的模型架構(gòu)。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)，分析了TRAPO各個(gè)組件的貢獻(xiàn)。他們發(fā)現(xiàn)，軌跡相似性匹配是性能提升的關(guān)鍵因素，而簡單的半監(jiān)督組合（直接將監(jiān)督和無監(jiān)督目標(biāo)相加）只能帶來邊際改進(jìn)。這驗(yàn)證了他們的核心假設(shè)：重要的不是簡單地結(jié)合兩種方法，而是要找到正確的方式來識(shí)別和利用可靠的無標(biāo)注樣本。
四、理論基礎(chǔ)：為什么學(xué)習(xí)軌跡如此重要
TRAPO方法的成功并非偶然，而是有著深厚的理論基礎(chǔ)。研究團(tuán)隊(duì)從神經(jīng)切線核理論和域適應(yīng)理論兩個(gè)角度為這種方法提供了嚴(yán)格的數(shù)學(xué)證明。
神經(jīng)切線核理論是近年來深度學(xué)習(xí)理論研究的重要突破。簡單來說，這個(gè)理論表明，當(dāng)神經(jīng)網(wǎng)絡(luò)足夠?qū)挘ㄓ凶銐蚨嗟膮?shù)）時(shí)，網(wǎng)絡(luò)的訓(xùn)練行為可以用一個(gè)固定的核函數(shù)來近似。這就像用一個(gè)萬能公式來預(yù)測網(wǎng)絡(luò)在訓(xùn)練過程中的變化。
在TRAPO的情境下，這個(gè)理論有著特殊的含義。當(dāng)兩個(gè)推理問題在語義上相似時(shí)，模型在處理它們時(shí)的"梯度方向"也會(huì)相似。梯度可以理解為模型參數(shù)的調(diào)整方向，就像指南針指向的方向一樣。如果兩個(gè)問題的梯度方向相似，意味著模型在學(xué)習(xí)解決這兩個(gè)問題時(shí)采用了相似的策略。
研究團(tuán)隊(duì)證明了一個(gè)重要定理：在神經(jīng)切線核框架下，如果兩個(gè)問題的梯度具有高度相似性，那么它們的學(xué)習(xí)軌跡（通過率隨時(shí)間的變化）也會(huì)高度相似。這為TRAPO的核心假設(shè)提供了理論支撐——學(xué)習(xí)軌跡相似確實(shí)反映了推理模式的相似性。
更重要的是，研究團(tuán)隊(duì)還證明了軌跡一致性如何轉(zhuǎn)化為泛化性能的改進(jìn)。他們建立了一個(gè)泛化誤差界限，表明當(dāng)無標(biāo)注樣本的軌跡與標(biāo)注樣本軌跡越相似，模型在目標(biāo)任務(wù)上的泛化誤差就越小。這個(gè)界限包含幾個(gè)關(guān)鍵組成部分：源域（標(biāo)注數(shù)據(jù)）上的經(jīng)驗(yàn)風(fēng)險(xiǎn)、軌跡不一致性帶來的懲罰、以及模型置信度相關(guān)的正則化項(xiàng)。
這個(gè)理論結(jié)果非常重要，因?yàn)樗粌H解釋了TRAPO為什么有效，還為進(jìn)一步改進(jìn)提供了指導(dǎo)。比如，理論表明提高模型在標(biāo)注數(shù)據(jù)上的性能、增強(qiáng)軌跡一致性、以及提升模型置信度都有助于改善最終的泛化性能。
研究團(tuán)隊(duì)還從域適應(yīng)的角度分析了TRAPO。域適應(yīng)是機(jī)器學(xué)習(xí)中的一個(gè)重要概念，它研究如何讓在一個(gè)領(lǐng)域訓(xùn)練的模型能夠在另一個(gè)相關(guān)領(lǐng)域工作。在TRAPO的設(shè)定中，標(biāo)注數(shù)據(jù)可以看作源域，無標(biāo)注數(shù)據(jù)可以看作目標(biāo)域。
傳統(tǒng)的域適應(yīng)方法通常需要顯式地對齊兩個(gè)域的特征分布，這在實(shí)踐中往往很困難。TRAPO的創(chuàng)新在于，它通過軌跡匹配隱式地實(shí)現(xiàn)了域?qū)R。當(dāng)無標(biāo)注樣本的學(xué)習(xí)軌跡與標(biāo)注樣本相似時(shí)，它們在某種意義上屬于"同一個(gè)域"，因此可以安全地用于訓(xùn)練。
理論分析還揭示了TRAPO的一個(gè)重要性質(zhì)：隨著訓(xùn)練進(jìn)行，可靠軌跡數(shù)據(jù)庫會(huì)變得越來越準(zhǔn)確，從而形成一個(gè)正向反饋循環(huán)。這解釋了為什么TRAPO能夠穩(wěn)定地改進(jìn)性能，而不會(huì)像無監(jiān)督方法那樣出現(xiàn)模型坍塌。
五、實(shí)際應(yīng)用前景與局限性
TRAPO方法的成功為人工智能在資源受限環(huán)境下的應(yīng)用開辟了新的可能性。在許多實(shí)際應(yīng)用場景中，獲得大量高質(zhì)量標(biāo)注數(shù)據(jù)既困難又昂貴，TRAPO提供了一個(gè)切實(shí)可行的解決方案。
在醫(yī)療領(lǐng)域，TRAPO的潛在價(jià)值尤為突出。醫(yī)療診斷數(shù)據(jù)的標(biāo)注需要專業(yè)醫(yī)生投入大量時(shí)間，而且不同醫(yī)生的判斷可能存在差異。如果能夠用少量由權(quán)威專家標(biāo)注的病例作為"指南針"，結(jié)合大量未標(biāo)注的醫(yī)療記錄進(jìn)行訓(xùn)練，就可能大大降低構(gòu)建醫(yī)療AI系統(tǒng)的成本。
金融風(fēng)控領(lǐng)域也面臨類似挑戰(zhàn)。雖然金融機(jī)構(gòu)擁有海量交易數(shù)據(jù)，但準(zhǔn)確標(biāo)注哪些交易涉及欺詐需要昂貴的人工審查。TRAPO可以利用少量確認(rèn)的欺詐案例來識(shí)別具有相似模式的可疑交易，從而提升整個(gè)風(fēng)控系統(tǒng)的效率。
在法律服務(wù)領(lǐng)域，TRAPO可以用于訓(xùn)練法律文檔分析和案例推理系統(tǒng)。法律專家的時(shí)間寶貴，但法律文檔數(shù)量龐大。通過用少量專家標(biāo)注的關(guān)鍵案例指導(dǎo)大量法律文檔的學(xué)習(xí)，可以構(gòu)建更智能的法律AI助手。
教育技術(shù)也是TRAPO的一個(gè)重要應(yīng)用方向。個(gè)性化學(xué)習(xí)系統(tǒng)需要理解每個(gè)學(xué)生的學(xué)習(xí)模式，但收集每個(gè)學(xué)生的詳細(xì)學(xué)習(xí)數(shù)據(jù)成本很高。TRAPO可以用少量精心設(shè)計(jì)的測試題目作為"錨點(diǎn)"，結(jié)合學(xué)生在其他練習(xí)中的表現(xiàn)來更好地評估和預(yù)測學(xué)習(xí)效果。
然而，TRAPO也存在一些局限性需要注意。首先，這種方法對標(biāo)注數(shù)據(jù)的質(zhì)量要求很高。如果用作"指南針"的標(biāo)注數(shù)據(jù)本身存在錯(cuò)誤或偏見，可能會(huì)誤導(dǎo)整個(gè)學(xué)習(xí)過程。因此，在應(yīng)用TRAPO時(shí)，需要特別注意標(biāo)注數(shù)據(jù)的選擇和質(zhì)量控制。
其次，TRAPO的效果在很大程度上依賴于標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)之間的相關(guān)性。如果兩者的分布差異太大，軌跡匹配可能失效。這在跨域應(yīng)用中尤其需要注意，可能需要針對性的預(yù)處理或特殊設(shè)計(jì)。
計(jì)算成本是另一個(gè)考慮因素。雖然TRAPO減少了標(biāo)注成本，但需要額外的計(jì)算來追蹤學(xué)習(xí)軌跡和計(jì)算相似度。在大規(guī)模應(yīng)用中，這些額外計(jì)算可能成為瓶頸。
最后，TRAPO目前主要在推理任務(wù)上得到驗(yàn)證，其在其他類型任務(wù)（如圖像生成、語言翻譯等）上的效果還有待進(jìn)一步研究。不同類型的任務(wù)可能需要不同的軌跡定義和相似度計(jì)算方法。
六、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)要點(diǎn)
TRAPO的成功實(shí)現(xiàn)需要仔細(xì)處理多個(gè)技術(shù)細(xì)節(jié)。理解這些細(xì)節(jié)對于實(shí)際應(yīng)用這種方法至關(guān)重要。
軌跡計(jì)算是TRAPO的核心組件。對于每個(gè)訓(xùn)練樣本，系統(tǒng)需要在每個(gè)訓(xùn)練輪次記錄模型的表現(xiàn)。具體來說，模型會(huì)對同一個(gè)問題生成多個(gè)答案（通常是8個(gè)），然后計(jì)算其中正確答案的比例。這個(gè)比例就是該輪次的"通過率"。
通過率的計(jì)算方式略有不同，取決于樣本是否有標(biāo)注。對于有標(biāo)注的樣本，通過率就是生成答案中與標(biāo)準(zhǔn)答案匹配的比例。對于無標(biāo)注樣本，TRAPO使用多數(shù)投票機(jī)制：把出現(xiàn)次數(shù)最多的答案當(dāng)作"偽標(biāo)準(zhǔn)答案"，然后計(jì)算與這個(gè)偽答案匹配的生成答案比例。
隨著訓(xùn)練進(jìn)行，每個(gè)樣本會(huì)積累一個(gè)通過率序列，比如[0.2, 0.3, 0.5, 0.7]，表示在前四個(gè)訓(xùn)練輪次中的通過率變化。這個(gè)序列就是所謂的"學(xué)習(xí)軌跡"。
相似度計(jì)算使用余弦相似度，這是一個(gè)標(biāo)準(zhǔn)的向量相似性度量。在計(jì)算前，軌跡向量會(huì)被標(biāo)準(zhǔn)化，確保比較的是軌跡的"形狀"而非絕對數(shù)值。研究團(tuán)隊(duì)發(fā)現(xiàn)，相比于歐幾里得距離等其他度量，余弦相似度更能捕捉學(xué)習(xí)模式的相似性。
樣本選擇策略是TRAPO的另一個(gè)關(guān)鍵設(shè)計(jì)。系統(tǒng)維護(hù)一個(gè)"可靠軌跡數(shù)據(jù)庫"，最初包含所有標(biāo)注樣本的軌跡。在每個(gè)訓(xùn)練輪次，系統(tǒng)會(huì)計(jì)算每個(gè)無標(biāo)注樣本軌跡與數(shù)據(jù)庫中平均軌跡的相似度，然后使用兩個(gè)標(biāo)準(zhǔn)選擇可靠樣本：選取相似度最高的前p%樣本，以及所有相似度超過閾值Γ的樣本。
溫?zé)釂?dòng)機(jī)制確保系統(tǒng)在早期訓(xùn)練階段的穩(wěn)定性。在前幾個(gè)訓(xùn)練輪次中，TRAPO只使用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，同時(shí)收集無標(biāo)注樣本的軌跡信息。這個(gè)"預(yù)熱"階段讓模型建立基礎(chǔ)能力，避免在訓(xùn)練初期因?yàn)檐壽E信息不足而做出錯(cuò)誤判斷。
參數(shù)設(shè)置在實(shí)際應(yīng)用中需要根據(jù)具體情況調(diào)整。研究團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn)，前10%的相似度閾值（top-p=0.1）和0.4的固定閾值（Γ=0.4）在多數(shù)情況下效果較好。預(yù)熱階段長度通常設(shè)為8-10個(gè)訓(xùn)練輪次，但具體數(shù)值需要根據(jù)數(shù)據(jù)規(guī)模和任務(wù)復(fù)雜度調(diào)整。
損失函數(shù)的設(shè)計(jì)保持了簡潔性。TRAPO使用標(biāo)準(zhǔn)的GRPO（Group Relative Policy Optimization）目標(biāo)函數(shù)，只是在計(jì)算無標(biāo)注數(shù)據(jù)的損失時(shí)加入了選擇掩碼。具體來說，只有被標(biāo)記為"可靠"的無標(biāo)注樣本才會(huì)對梯度更新產(chǎn)生貢獻(xiàn)。
實(shí)現(xiàn)過程中還需要注意內(nèi)存管理。存儲(chǔ)所有樣本的完整軌跡可能消耗大量內(nèi)存，特別是在大規(guī)模數(shù)據(jù)集上。一個(gè)實(shí)用的優(yōu)化是只保留最近若干輪次的軌跡信息，或者使用壓縮的軌跡表示。
并行化處理可以顯著提升訓(xùn)練效率。軌跡相似度計(jì)算是高度并行的操作，可以利用GPU加速。同時(shí)，樣本選擇和數(shù)據(jù)庫更新也可以與梯度計(jì)算并行進(jìn)行，減少額外的計(jì)算開銷。
TRAPO框架展現(xiàn)出了良好的模塊化設(shè)計(jì)，可以與不同的基礎(chǔ)優(yōu)化算法結(jié)合。研究團(tuán)隊(duì)驗(yàn)證了它與多種無監(jiān)督強(qiáng)化學(xué)習(xí)方法的兼容性，包括熵最小化、自信度最大化和多數(shù)投票等。這種靈活性使得TRAPO可以作為一個(gè)通用的改進(jìn)組件，提升現(xiàn)有方法的效果。
說到底，TRAPO為我們展示了一種全新的思考方式：在機(jī)器學(xué)習(xí)中，有時(shí)候問題不在于我們擁有多少數(shù)據(jù)，而在于如何聰明地利用有限的高質(zhì)量數(shù)據(jù)來指導(dǎo)對大量普通數(shù)據(jù)的學(xué)習(xí)。這種"少而精"指導(dǎo)"多而廣"的策略，不僅在技術(shù)上實(shí)現(xiàn)了突破，更在實(shí)用性上為資源受限的AI應(yīng)用開辟了新路徑。
通過巧妙的軌跡匹配機(jī)制，TRAPO證明了AI系統(tǒng)可以像人類學(xué)習(xí)者一樣，通過觀察學(xué)習(xí)過程中的模式和規(guī)律來判斷信息的可靠性。這種能力讓AI在面對有限監(jiān)督信號(hào)時(shí)仍能保持高效學(xué)習(xí)，避免被錯(cuò)誤信息誤導(dǎo)。
對于普通用戶而言，TRAPO的成功意味著未來可能出現(xiàn)更多高質(zhì)量但成本較低的AI應(yīng)用。無論是個(gè)人助手、教育工具還是專業(yè)分析軟件，都可能因?yàn)檫@種高效的訓(xùn)練方法而變得更加智能和實(shí)用，同時(shí)保持相對親民的價(jià)格。這項(xiàng)研究發(fā)表在arXiv平臺(tái)上，編號(hào)為2512.13106v1，有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過該編號(hào)查找完整論文。
Q&A
Q1：TRAPO是什么？它解決了什么問題？
A：TRAPO是由浙江大學(xué)和螞蟻集團(tuán)聯(lián)合開發(fā)的半監(jiān)督強(qiáng)化學(xué)習(xí)框架，主要解決大型語言模型訓(xùn)練中標(biāo)注數(shù)據(jù)成本過高的問題。它能讓AI模型用極少量的標(biāo)準(zhǔn)答案配合大量無標(biāo)準(zhǔn)答案的數(shù)據(jù)進(jìn)行學(xué)習(xí)，就像用少數(shù)幾個(gè)好老師指導(dǎo)一大群學(xué)生互相學(xué)習(xí)。
Q2：TRAPO如何判斷哪些無標(biāo)注數(shù)據(jù)是可靠的？
A：TRAPO通過追蹤每個(gè)樣本在訓(xùn)練過程中的"學(xué)習(xí)軌跡"來判斷可靠性。它觀察模型在處理不同問題時(shí)正確率的變化模式，如果某個(gè)無標(biāo)注樣本的學(xué)習(xí)軌跡與已知正確樣本相似，就認(rèn)為這個(gè)樣本包含有價(jià)值的信息，可以用于訓(xùn)練。
Q3：使用TRAPO方法能節(jié)省多少標(biāo)注成本？
A：實(shí)驗(yàn)顯示TRAPO能大幅節(jié)省標(biāo)注成本，用4000個(gè)標(biāo)注樣本配合12000個(gè)無標(biāo)注樣本的效果，甚至超過了使用45000個(gè)全標(biāo)注樣本的傳統(tǒng)方法。這意味著標(biāo)注工作量可以減少到原來的十分之一，同時(shí)還能獲得更好的效果。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

TikTok簽署協(xié)議，將美國業(yè)務(wù)出售給甲骨文等主導(dǎo)的合資企業(yè)

谷歌安卓16調(diào)整Emoji表情設(shè)計(jì)，風(fēng)格向iOS靠攏

周受資內(nèi)部信曝TikTok美國方案；騰訊辟謠元寶由真人運(yùn)營丨邦早報(bào)

TikTok美國業(yè)務(wù)新進(jìn)展：字節(jié)保留電商、廣告等，引入三方組新合資公司負(fù)責(zé)數(shù)據(jù)安全

AI浪潮下，10年后的頂尖高校拼什么？丨GAIR 2025

極數(shù)迭代CEO佟顯喬：具身智能的數(shù)據(jù)工程解決方案思考丨GAIR 2025

全站最新

TikTok簽署協(xié)議，將美國業(yè)務(wù)出售給甲骨文等主導(dǎo)的合資企業(yè)

谷歌安卓16調(diào)整Emoji表情設(shè)計(jì)，風(fēng)格向iOS靠攏

周受資內(nèi)部信曝TikTok美國方案；騰訊辟謠元寶由真人運(yùn)營丨邦早報(bào)

TikTok美國業(yè)務(wù)新進(jìn)展：字節(jié)保留電商、廣告等，引入三方組新合資公司負(fù)責(zé)數(shù)據(jù)安全

熱門推薦

授權(quán)亂象頻出，誰的同仁堂？

當(dāng)“野性消費(fèi)”退潮：鴻星爾克留下了什么？

英氏控股的優(yōu)勢只有品牌和廣告嗎？

為什么蘋果、華為，都干不過小天才？

豪擲10億美金投資OpenAI！迪士尼終于對AI妥協(xié)了？（深度觀察）

從“寧王”到“易中天”，時(shí)代的“魚群”在遷徙

阿維塔赴港IPO：一場針對“依附者”的價(jià)值審視

“鐵飯碗”銀行也開始末位淘汰了？普通人有機(jī)會(huì)，但沒退路

君樂寶，想要逃出伊利、蒙牛的“五指山”

5 個(gè)月估值翻 3 倍！瑞典 AI 巨頭 Lovable 獲 3.3 億美元 B 輪融資

十億流量瞬間清零!YouTube 永久封禁兩大 AI 虛假預(yù)告片“鼻祖”頻道

OpenAI 更新 ChatGPT 以強(qiáng)化未成年人保護(hù)措施

告別信息淹沒！ChatGPT 推出聊天置頂功能，讓重要對話觸手可及

Meta 官宣2026上半年發(fā)布 Mango 系列下一代模型

ChatGPT 移動(dòng)應(yīng)用全球用戶支出突破 30 億美元