亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當(dāng)前位置: 首頁 ? 資訊 ? 新科技 ? 正文

浙大與螞蟻集團(tuán)突破:少量數(shù)據(jù)提升AI語言推理能力

IP屬地 中國·北京 科技行者 時(shí)間:2025-12-19 00:14:05


這項(xiàng)由浙江大學(xué)的楊神智、朱光成等研究者與螞蟻集團(tuán)的鄭星等人合作完成的研究發(fā)表于2025年12月,論文編號(hào)為arXiv:2512.13106v1。研究團(tuán)隊(duì)提出了一種名為TRAPO的創(chuàng)新訓(xùn)練框架,能夠讓大型語言模型僅用極少量的標(biāo)注數(shù)據(jù)就獲得接近甚至超越傳統(tǒng)方法的推理能力。

當(dāng)我們談?wù)撚?xùn)練AI模型的推理能力時(shí),就像教一個(gè)學(xué)生學(xué)數(shù)學(xué)一樣。傳統(tǒng)的方法需要大量帶有標(biāo)準(zhǔn)答案的習(xí)題,就好比老師準(zhǔn)備了成千上萬道有答案的練習(xí)題供學(xué)生練習(xí)。但這種方法有個(gè)致命缺點(diǎn):準(zhǔn)備這么多標(biāo)準(zhǔn)答案需要耗費(fèi)巨大的人力和時(shí)間成本,特別是在醫(yī)學(xué)、金融等專業(yè)領(lǐng)域,獲得準(zhǔn)確答案更是難上加難。

研究人員發(fā)現(xiàn)了一個(gè)有趣現(xiàn)象:當(dāng)AI模型在學(xué)習(xí)過程中表現(xiàn)出相似的"學(xué)習(xí)軌跡"時(shí),往往意味著它們掌握了相同的推理模式。這就像兩個(gè)學(xué)生在解同一類數(shù)學(xué)題時(shí),如果他們的解題思路和步驟相似,通常說明他們都掌握了正確的解題方法。基于這個(gè)洞察,TRAPO框架應(yīng)運(yùn)而生。

TRAPO的核心思想可以用"師生互助學(xué)習(xí)"來比喻。少量帶標(biāo)準(zhǔn)答案的題目就像經(jīng)驗(yàn)豐富的老師,而大量沒有標(biāo)準(zhǔn)答案的題目則像是同班同學(xué)。TRAPO會(huì)觀察每個(gè)"學(xué)生"(無標(biāo)注樣本)在學(xué)習(xí)過程中的表現(xiàn)軌跡,找出那些學(xué)習(xí)模式與"老師"(有標(biāo)注樣本)相似的"同學(xué)",然后讓這些表現(xiàn)良好的"同學(xué)"也參與到教學(xué)過程中。

一、突破傳統(tǒng)訓(xùn)練瓶頸的新思路

在人工智能領(lǐng)域,強(qiáng)化學(xué)習(xí)一直是訓(xùn)練模型推理能力的重要方法。傳統(tǒng)的強(qiáng)化學(xué)習(xí)依賴大量帶有準(zhǔn)確答案的訓(xùn)練數(shù)據(jù),這種方法被稱為"監(jiān)督強(qiáng)化學(xué)習(xí)"。就像一個(gè)嚴(yán)格的數(shù)學(xué)老師,必須為每道練習(xí)題都提供標(biāo)準(zhǔn)答案,學(xué)生通過對比自己的答案和標(biāo)準(zhǔn)答案來判斷對錯(cuò),進(jìn)而調(diào)整解題策略。

然而這種方法面臨著一個(gè)嚴(yán)重問題:獲得大量高質(zhì)量的標(biāo)注數(shù)據(jù)成本極高。在數(shù)學(xué)推理領(lǐng)域,每個(gè)問題都需要專業(yè)人員提供準(zhǔn)確答案;在更復(fù)雜的領(lǐng)域如醫(yī)學(xué)診斷或法律分析,標(biāo)注成本更是天文數(shù)字。為了解決這個(gè)問題,研究者們開始探索無監(jiān)督強(qiáng)化學(xué)習(xí)方法,試圖讓模型在沒有標(biāo)準(zhǔn)答案的情況下自己學(xué)會(huì)推理。

無監(jiān)督方法的基本思路是讓模型通過內(nèi)部一致性來評判答案質(zhì)量。比如讓模型對同一個(gè)問題生成多個(gè)答案,然后采用"少數(shù)服從多數(shù)"的原則,或者根據(jù)模型對自己答案的信心程度來判斷答案好壞。這種方法就像讓學(xué)生們自己組成學(xué)習(xí)小組,通過討論和投票來決定答案的對錯(cuò)。

但是,無監(jiān)督方法存在一個(gè)致命缺陷:它容易陷入"錯(cuò)誤共識(shí)"的陷阱。當(dāng)模型在訓(xùn)練后期開始產(chǎn)生系統(tǒng)性偏見時(shí),它可能會(huì)越來越自信地給出錯(cuò)誤答案。這就像一群學(xué)生如果一開始就理解錯(cuò)了某個(gè)概念,他們在討論時(shí)會(huì)互相強(qiáng)化這種錯(cuò)誤理解,最終形成穩(wěn)固但錯(cuò)誤的共識(shí)。研究團(tuán)隊(duì)將這種現(xiàn)象稱為"模型坍塌"。

TRAPO的創(chuàng)新之處在于提出了一種半監(jiān)督的解決方案。它巧妙地結(jié)合了監(jiān)督和無監(jiān)督兩種方法的優(yōu)勢:用少量標(biāo)注數(shù)據(jù)作為"指南針"來指引方向,用大量無標(biāo)注數(shù)據(jù)作為"練習(xí)材料"來提升能力。這種方法不僅大大降低了標(biāo)注成本,還能避免無監(jiān)督方法的模型坍塌問題。

研究結(jié)果令人震撼:使用僅1000個(gè)標(biāo)注樣本和3000個(gè)無標(biāo)注樣本,TRAPO就能達(dá)到42.6%的平均準(zhǔn)確率,超過了使用45000個(gè)無標(biāo)注樣本的最佳無監(jiān)督方法的38.3%準(zhǔn)確率。更令人驚喜的是,當(dāng)使用4000個(gè)標(biāo)注樣本和12000個(gè)無標(biāo)注樣本時(shí),TRAPO甚至超越了使用全部45000個(gè)標(biāo)注樣本的完全監(jiān)督方法,而標(biāo)注數(shù)據(jù)使用量僅為后者的十分之一。

二、學(xué)習(xí)軌跡相似性:發(fā)現(xiàn)可靠樣本的關(guān)鍵

TRAPO框架的核心創(chuàng)新在于"軌跡相似性匹配"這一概念。為了理解這個(gè)概念,我們可以把AI模型的學(xué)習(xí)過程想象成學(xué)生解題能力的逐步提升。

當(dāng)一個(gè)學(xué)生在學(xué)習(xí)數(shù)學(xué)時(shí),我們可以記錄他每次考試的正確率變化。比如第一次考試正確率是20%,第二次是35%,第三次是50%,以此類推。這個(gè)正確率隨時(shí)間的變化軌跡就反映了這個(gè)學(xué)生的學(xué)習(xí)模式和能力發(fā)展路徑。如果兩個(gè)學(xué)生的學(xué)習(xí)軌跡相似,比如都是穩(wěn)步上升且上升速度相近,那么他們很可能掌握了相似的解題方法和思維模式。

TRAPO正是基于這個(gè)觀察設(shè)計(jì)的。對于每個(gè)訓(xùn)練樣本,無論是有標(biāo)注的還是無標(biāo)注的,TRAPO都會(huì)追蹤模型在處理該樣本時(shí)的"通過率軌跡"——也就是模型在不同訓(xùn)練階段對該樣本給出正確答案的比例變化。

具體來說,在每個(gè)訓(xùn)練輪次中,TRAPO會(huì)讓模型對每個(gè)問題生成多個(gè)答案(比如8個(gè)),然后計(jì)算其中正確答案的比例。對于有標(biāo)注的樣本,正確性可以通過與標(biāo)準(zhǔn)答案比較來確定;對于無標(biāo)注的樣本,TRAPO使用"多數(shù)投票"的方式生成偽標(biāo)簽,即把最常出現(xiàn)的答案當(dāng)作正確答案。

隨著訓(xùn)練進(jìn)行,每個(gè)樣本都會(huì)積累一個(gè)"通過率軌跡"。TRAPO維護(hù)一個(gè)"可靠軌跡數(shù)據(jù)庫",最初包含所有有標(biāo)注樣本的軌跡,這些軌跡代表了"正確的學(xué)習(xí)模式"。然后,TRAPO會(huì)計(jì)算每個(gè)無標(biāo)注樣本的軌跡與這個(gè)可靠數(shù)據(jù)庫中平均軌跡的相似度。

相似度計(jì)算使用的是余弦相似度,這是一個(gè)衡量兩個(gè)向量方向一致性的數(shù)學(xué)工具。簡單來說,如果兩個(gè)學(xué)習(xí)軌跡的"形狀"相似——比如都是先慢后快地提升,或者都保持穩(wěn)定的上升趨勢——那么它們的余弦相似度就會(huì)很高。

TRAPO設(shè)置了兩個(gè)篩選標(biāo)準(zhǔn)來選擇可靠的無標(biāo)注樣本。第一個(gè)標(biāo)準(zhǔn)是"取前p%",即選擇相似度最高的一定比例的樣本。第二個(gè)標(biāo)準(zhǔn)是"閾值篩選",即選擇相似度超過某個(gè)固定閾值的所有樣本。這種雙重篩選機(jī)制既保證了選出的樣本質(zhì)量,又避免了過于保守而錯(cuò)失有價(jià)值的樣本。

被選中的可靠無標(biāo)注樣本會(huì)被加入到訓(xùn)練過程中,它們的軌跡也會(huì)更新可靠軌跡數(shù)據(jù)庫,形成一個(gè)正向循環(huán)。隨著訓(xùn)練進(jìn)行,數(shù)據(jù)庫包含的可靠軌跡越來越多,TRAPO對哪些樣本可靠的判斷也越來越準(zhǔn)確。

這種方法的巧妙之處在于,它不是簡單地相信模型的自信度或多數(shù)投票結(jié)果,而是通過學(xué)習(xí)動(dòng)態(tài)來判斷樣本的可靠性。一個(gè)樣本即使在某個(gè)時(shí)刻看起來不太對,但如果它的學(xué)習(xí)軌跡與已知正確樣本相似,TRAPO仍會(huì)認(rèn)為它可能包含有價(jià)值的信息。相反,即使某個(gè)樣本當(dāng)前看起來很有信心,但如果其軌跡與可靠樣本差異很大,TRAPO也會(huì)保持謹(jǐn)慎。

三、實(shí)驗(yàn)驗(yàn)證:少量數(shù)據(jù)創(chuàng)造最優(yōu)效果

研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測試上驗(yàn)證了TRAPO的效果,結(jié)果表明這種方法確實(shí)能用極少的標(biāo)注數(shù)據(jù)達(dá)到卓越的性能。

實(shí)驗(yàn)設(shè)計(jì)采用了嚴(yán)格的對比框架。研究者選擇了六個(gè)廣泛使用的數(shù)學(xué)推理數(shù)據(jù)集作為域內(nèi)測試,包括AIME 2024/2025、AMC、MATH-500、Minerva和Olympiad等國際知名數(shù)學(xué)競賽題目。同時(shí),他們還選擇了三個(gè)域外測試集(ARC-c、GPQA-diamond、MMLU-pro)來評估模型的泛化能力,這些測試集涵蓋了開放領(lǐng)域推理、研究生水平科學(xué)問題和學(xué)術(shù)推理等不同類型的任務(wù)。

實(shí)驗(yàn)的基礎(chǔ)模型是Qwen2.5-Math-7B,這是一個(gè)專門針對數(shù)學(xué)推理優(yōu)化的大型語言模型。研究團(tuán)隊(duì)將其與多種對比方法進(jìn)行比較,包括無監(jiān)督強(qiáng)化學(xué)習(xí)方法(如TTRL、自信度最大化、熵最小化等)、監(jiān)督強(qiáng)化學(xué)習(xí)方法,以及簡單的半監(jiān)督組合方法。

最令人印象深刻的實(shí)驗(yàn)結(jié)果來自于數(shù)據(jù)效率對比。當(dāng)TRAPO使用1000個(gè)標(biāo)注樣本和3000個(gè)無標(biāo)注樣本進(jìn)行訓(xùn)練時(shí),在域內(nèi)測試中獲得了42.6%的平均準(zhǔn)確率,而使用45000個(gè)無標(biāo)注樣本的最佳無監(jiān)督方法僅達(dá)到38.3%的準(zhǔn)確率。這意味著TRAPO用僅僅千分之一的標(biāo)注數(shù)據(jù),就超越了需要大量無標(biāo)注數(shù)據(jù)的傳統(tǒng)方法。

更令人驚訝的發(fā)現(xiàn)是TRAPO在擴(kuò)大數(shù)據(jù)規(guī)模時(shí)的表現(xiàn)。當(dāng)使用4000個(gè)標(biāo)注樣本和12000個(gè)無標(biāo)注樣本時(shí),TRAPO在域內(nèi)測試中達(dá)到45.6%的準(zhǔn)確率,在域外測試中達(dá)到59.7%的準(zhǔn)確率。作為對比,使用全部45000個(gè)標(biāo)注樣本的完全監(jiān)督方法分別只達(dá)到45.5%和57.3%的準(zhǔn)確率。這個(gè)結(jié)果表明,TRAPO不僅在數(shù)據(jù)效率上有優(yōu)勢,在絕對性能上也能超越傳統(tǒng)方法。

研究團(tuán)隊(duì)還進(jìn)行了跨域泛化實(shí)驗(yàn),這個(gè)實(shí)驗(yàn)特別有意思。他們用1000個(gè)數(shù)學(xué)領(lǐng)域的標(biāo)注樣本作為指導(dǎo),配合1000個(gè)非數(shù)學(xué)領(lǐng)域的無標(biāo)注樣本進(jìn)行訓(xùn)練。這種設(shè)置模擬了現(xiàn)實(shí)中常見的情況:我們在某個(gè)領(lǐng)域有少量高質(zhì)量數(shù)據(jù),但希望模型能夠處理其他相關(guān)領(lǐng)域的問題。

實(shí)驗(yàn)結(jié)果顯示,即使在這種跨域設(shè)置下,TRAPO仍然表現(xiàn)出色。在域內(nèi)數(shù)學(xué)推理任務(wù)中達(dá)到41.0%的準(zhǔn)確率,在域外任務(wù)中達(dá)到56.9%的準(zhǔn)確率,分別比最佳無監(jiān)督基線高出1.8%和3.5%。這個(gè)結(jié)果證明了TRAPO的軌跡匹配機(jī)制確實(shí)能夠識(shí)別出跨域的可靠推理模式。

為了驗(yàn)證方法的普適性,研究團(tuán)隊(duì)還在其他模型上測試了TRAPO。在LLaMA-3.1-8B-Instruct模型上,TRAPO同樣表現(xiàn)出一致的改進(jìn)效果。在DeepSeek-R1-Distill-Qwen-1.5B這個(gè)更小的模型上,TRAPO也展現(xiàn)了良好的泛化能力,證明這種方法不依賴于特定的模型架構(gòu)。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),分析了TRAPO各個(gè)組件的貢獻(xiàn)。他們發(fā)現(xiàn),軌跡相似性匹配是性能提升的關(guān)鍵因素,而簡單的半監(jiān)督組合(直接將監(jiān)督和無監(jiān)督目標(biāo)相加)只能帶來邊際改進(jìn)。這驗(yàn)證了他們的核心假設(shè):重要的不是簡單地結(jié)合兩種方法,而是要找到正確的方式來識(shí)別和利用可靠的無標(biāo)注樣本。

四、理論基礎(chǔ):為什么學(xué)習(xí)軌跡如此重要

TRAPO方法的成功并非偶然,而是有著深厚的理論基礎(chǔ)。研究團(tuán)隊(duì)從神經(jīng)切線核理論和域適應(yīng)理論兩個(gè)角度為這種方法提供了嚴(yán)格的數(shù)學(xué)證明。

神經(jīng)切線核理論是近年來深度學(xué)習(xí)理論研究的重要突破。簡單來說,這個(gè)理論表明,當(dāng)神經(jīng)網(wǎng)絡(luò)足夠?qū)挘ㄓ凶銐蚨嗟膮?shù))時(shí),網(wǎng)絡(luò)的訓(xùn)練行為可以用一個(gè)固定的核函數(shù)來近似。這就像用一個(gè)萬能公式來預(yù)測網(wǎng)絡(luò)在訓(xùn)練過程中的變化。

在TRAPO的情境下,這個(gè)理論有著特殊的含義。當(dāng)兩個(gè)推理問題在語義上相似時(shí),模型在處理它們時(shí)的"梯度方向"也會(huì)相似。梯度可以理解為模型參數(shù)的調(diào)整方向,就像指南針指向的方向一樣。如果兩個(gè)問題的梯度方向相似,意味著模型在學(xué)習(xí)解決這兩個(gè)問題時(shí)采用了相似的策略。

研究團(tuán)隊(duì)證明了一個(gè)重要定理:在神經(jīng)切線核框架下,如果兩個(gè)問題的梯度具有高度相似性,那么它們的學(xué)習(xí)軌跡(通過率隨時(shí)間的變化)也會(huì)高度相似。這為TRAPO的核心假設(shè)提供了理論支撐——學(xué)習(xí)軌跡相似確實(shí)反映了推理模式的相似性。

更重要的是,研究團(tuán)隊(duì)還證明了軌跡一致性如何轉(zhuǎn)化為泛化性能的改進(jìn)。他們建立了一個(gè)泛化誤差界限,表明當(dāng)無標(biāo)注樣本的軌跡與標(biāo)注樣本軌跡越相似,模型在目標(biāo)任務(wù)上的泛化誤差就越小。這個(gè)界限包含幾個(gè)關(guān)鍵組成部分:源域(標(biāo)注數(shù)據(jù))上的經(jīng)驗(yàn)風(fēng)險(xiǎn)、軌跡不一致性帶來的懲罰、以及模型置信度相關(guān)的正則化項(xiàng)。

這個(gè)理論結(jié)果非常重要,因?yàn)樗粌H解釋了TRAPO為什么有效,還為進(jìn)一步改進(jìn)提供了指導(dǎo)。比如,理論表明提高模型在標(biāo)注數(shù)據(jù)上的性能、增強(qiáng)軌跡一致性、以及提升模型置信度都有助于改善最終的泛化性能。

研究團(tuán)隊(duì)還從域適應(yīng)的角度分析了TRAPO。域適應(yīng)是機(jī)器學(xué)習(xí)中的一個(gè)重要概念,它研究如何讓在一個(gè)領(lǐng)域訓(xùn)練的模型能夠在另一個(gè)相關(guān)領(lǐng)域工作。在TRAPO的設(shè)定中,標(biāo)注數(shù)據(jù)可以看作源域,無標(biāo)注數(shù)據(jù)可以看作目標(biāo)域。

傳統(tǒng)的域適應(yīng)方法通常需要顯式地對齊兩個(gè)域的特征分布,這在實(shí)踐中往往很困難。TRAPO的創(chuàng)新在于,它通過軌跡匹配隱式地實(shí)現(xiàn)了域?qū)R。當(dāng)無標(biāo)注樣本的學(xué)習(xí)軌跡與標(biāo)注樣本相似時(shí),它們在某種意義上屬于"同一個(gè)域",因此可以安全地用于訓(xùn)練。

理論分析還揭示了TRAPO的一個(gè)重要性質(zhì):隨著訓(xùn)練進(jìn)行,可靠軌跡數(shù)據(jù)庫會(huì)變得越來越準(zhǔn)確,從而形成一個(gè)正向反饋循環(huán)。這解釋了為什么TRAPO能夠穩(wěn)定地改進(jìn)性能,而不會(huì)像無監(jiān)督方法那樣出現(xiàn)模型坍塌。

五、實(shí)際應(yīng)用前景與局限性

TRAPO方法的成功為人工智能在資源受限環(huán)境下的應(yīng)用開辟了新的可能性。在許多實(shí)際應(yīng)用場景中,獲得大量高質(zhì)量標(biāo)注數(shù)據(jù)既困難又昂貴,TRAPO提供了一個(gè)切實(shí)可行的解決方案。

在醫(yī)療領(lǐng)域,TRAPO的潛在價(jià)值尤為突出。醫(yī)療診斷數(shù)據(jù)的標(biāo)注需要專業(yè)醫(yī)生投入大量時(shí)間,而且不同醫(yī)生的判斷可能存在差異。如果能夠用少量由權(quán)威專家標(biāo)注的病例作為"指南針",結(jié)合大量未標(biāo)注的醫(yī)療記錄進(jìn)行訓(xùn)練,就可能大大降低構(gòu)建醫(yī)療AI系統(tǒng)的成本。

金融風(fēng)控領(lǐng)域也面臨類似挑戰(zhàn)。雖然金融機(jī)構(gòu)擁有海量交易數(shù)據(jù),但準(zhǔn)確標(biāo)注哪些交易涉及欺詐需要昂貴的人工審查。TRAPO可以利用少量確認(rèn)的欺詐案例來識(shí)別具有相似模式的可疑交易,從而提升整個(gè)風(fēng)控系統(tǒng)的效率。

在法律服務(wù)領(lǐng)域,TRAPO可以用于訓(xùn)練法律文檔分析和案例推理系統(tǒng)。法律專家的時(shí)間寶貴,但法律文檔數(shù)量龐大。通過用少量專家標(biāo)注的關(guān)鍵案例指導(dǎo)大量法律文檔的學(xué)習(xí),可以構(gòu)建更智能的法律AI助手。

教育技術(shù)也是TRAPO的一個(gè)重要應(yīng)用方向。個(gè)性化學(xué)習(xí)系統(tǒng)需要理解每個(gè)學(xué)生的學(xué)習(xí)模式,但收集每個(gè)學(xué)生的詳細(xì)學(xué)習(xí)數(shù)據(jù)成本很高。TRAPO可以用少量精心設(shè)計(jì)的測試題目作為"錨點(diǎn)",結(jié)合學(xué)生在其他練習(xí)中的表現(xiàn)來更好地評估和預(yù)測學(xué)習(xí)效果。

然而,TRAPO也存在一些局限性需要注意。首先,這種方法對標(biāo)注數(shù)據(jù)的質(zhì)量要求很高。如果用作"指南針"的標(biāo)注數(shù)據(jù)本身存在錯(cuò)誤或偏見,可能會(huì)誤導(dǎo)整個(gè)學(xué)習(xí)過程。因此,在應(yīng)用TRAPO時(shí),需要特別注意標(biāo)注數(shù)據(jù)的選擇和質(zhì)量控制。

其次,TRAPO的效果在很大程度上依賴于標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)之間的相關(guān)性。如果兩者的分布差異太大,軌跡匹配可能失效。這在跨域應(yīng)用中尤其需要注意,可能需要針對性的預(yù)處理或特殊設(shè)計(jì)。

計(jì)算成本是另一個(gè)考慮因素。雖然TRAPO減少了標(biāo)注成本,但需要額外的計(jì)算來追蹤學(xué)習(xí)軌跡和計(jì)算相似度。在大規(guī)模應(yīng)用中,這些額外計(jì)算可能成為瓶頸。

最后,TRAPO目前主要在推理任務(wù)上得到驗(yàn)證,其在其他類型任務(wù)(如圖像生成、語言翻譯等)上的效果還有待進(jìn)一步研究。不同類型的任務(wù)可能需要不同的軌跡定義和相似度計(jì)算方法。

六、技術(shù)細(xì)節(jié)與實(shí)現(xiàn)要點(diǎn)

TRAPO的成功實(shí)現(xiàn)需要仔細(xì)處理多個(gè)技術(shù)細(xì)節(jié)。理解這些細(xì)節(jié)對于實(shí)際應(yīng)用這種方法至關(guān)重要。

軌跡計(jì)算是TRAPO的核心組件。對于每個(gè)訓(xùn)練樣本,系統(tǒng)需要在每個(gè)訓(xùn)練輪次記錄模型的表現(xiàn)。具體來說,模型會(huì)對同一個(gè)問題生成多個(gè)答案(通常是8個(gè)),然后計(jì)算其中正確答案的比例。這個(gè)比例就是該輪次的"通過率"。

通過率的計(jì)算方式略有不同,取決于樣本是否有標(biāo)注。對于有標(biāo)注的樣本,通過率就是生成答案中與標(biāo)準(zhǔn)答案匹配的比例。對于無標(biāo)注樣本,TRAPO使用多數(shù)投票機(jī)制:把出現(xiàn)次數(shù)最多的答案當(dāng)作"偽標(biāo)準(zhǔn)答案",然后計(jì)算與這個(gè)偽答案匹配的生成答案比例。

隨著訓(xùn)練進(jìn)行,每個(gè)樣本會(huì)積累一個(gè)通過率序列,比如[0.2, 0.3, 0.5, 0.7],表示在前四個(gè)訓(xùn)練輪次中的通過率變化。這個(gè)序列就是所謂的"學(xué)習(xí)軌跡"。

相似度計(jì)算使用余弦相似度,這是一個(gè)標(biāo)準(zhǔn)的向量相似性度量。在計(jì)算前,軌跡向量會(huì)被標(biāo)準(zhǔn)化,確保比較的是軌跡的"形狀"而非絕對數(shù)值。研究團(tuán)隊(duì)發(fā)現(xiàn),相比于歐幾里得距離等其他度量,余弦相似度更能捕捉學(xué)習(xí)模式的相似性。

樣本選擇策略是TRAPO的另一個(gè)關(guān)鍵設(shè)計(jì)。系統(tǒng)維護(hù)一個(gè)"可靠軌跡數(shù)據(jù)庫",最初包含所有標(biāo)注樣本的軌跡。在每個(gè)訓(xùn)練輪次,系統(tǒng)會(huì)計(jì)算每個(gè)無標(biāo)注樣本軌跡與數(shù)據(jù)庫中平均軌跡的相似度,然后使用兩個(gè)標(biāo)準(zhǔn)選擇可靠樣本:選取相似度最高的前p%樣本,以及所有相似度超過閾值Γ的樣本。

溫?zé)釂?dòng)機(jī)制確保系統(tǒng)在早期訓(xùn)練階段的穩(wěn)定性。在前幾個(gè)訓(xùn)練輪次中,TRAPO只使用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,同時(shí)收集無標(biāo)注樣本的軌跡信息。這個(gè)"預(yù)熱"階段讓模型建立基礎(chǔ)能力,避免在訓(xùn)練初期因?yàn)檐壽E信息不足而做出錯(cuò)誤判斷。

參數(shù)設(shè)置在實(shí)際應(yīng)用中需要根據(jù)具體情況調(diào)整。研究團(tuán)隊(duì)在實(shí)驗(yàn)中發(fā)現(xiàn),前10%的相似度閾值(top-p=0.1)和0.4的固定閾值(Γ=0.4)在多數(shù)情況下效果較好。預(yù)熱階段長度通常設(shè)為8-10個(gè)訓(xùn)練輪次,但具體數(shù)值需要根據(jù)數(shù)據(jù)規(guī)模和任務(wù)復(fù)雜度調(diào)整。

損失函數(shù)的設(shè)計(jì)保持了簡潔性。TRAPO使用標(biāo)準(zhǔn)的GRPO(Group Relative Policy Optimization)目標(biāo)函數(shù),只是在計(jì)算無標(biāo)注數(shù)據(jù)的損失時(shí)加入了選擇掩碼。具體來說,只有被標(biāo)記為"可靠"的無標(biāo)注樣本才會(huì)對梯度更新產(chǎn)生貢獻(xiàn)。

實(shí)現(xiàn)過程中還需要注意內(nèi)存管理。存儲(chǔ)所有樣本的完整軌跡可能消耗大量內(nèi)存,特別是在大規(guī)模數(shù)據(jù)集上。一個(gè)實(shí)用的優(yōu)化是只保留最近若干輪次的軌跡信息,或者使用壓縮的軌跡表示。

并行化處理可以顯著提升訓(xùn)練效率。軌跡相似度計(jì)算是高度并行的操作,可以利用GPU加速。同時(shí),樣本選擇和數(shù)據(jù)庫更新也可以與梯度計(jì)算并行進(jìn)行,減少額外的計(jì)算開銷。

TRAPO框架展現(xiàn)出了良好的模塊化設(shè)計(jì),可以與不同的基礎(chǔ)優(yōu)化算法結(jié)合。研究團(tuán)隊(duì)驗(yàn)證了它與多種無監(jiān)督強(qiáng)化學(xué)習(xí)方法的兼容性,包括熵最小化、自信度最大化和多數(shù)投票等。這種靈活性使得TRAPO可以作為一個(gè)通用的改進(jìn)組件,提升現(xiàn)有方法的效果。

說到底,TRAPO為我們展示了一種全新的思考方式:在機(jī)器學(xué)習(xí)中,有時(shí)候問題不在于我們擁有多少數(shù)據(jù),而在于如何聰明地利用有限的高質(zhì)量數(shù)據(jù)來指導(dǎo)對大量普通數(shù)據(jù)的學(xué)習(xí)。這種"少而精"指導(dǎo)"多而廣"的策略,不僅在技術(shù)上實(shí)現(xiàn)了突破,更在實(shí)用性上為資源受限的AI應(yīng)用開辟了新路徑。

通過巧妙的軌跡匹配機(jī)制,TRAPO證明了AI系統(tǒng)可以像人類學(xué)習(xí)者一樣,通過觀察學(xué)習(xí)過程中的模式和規(guī)律來判斷信息的可靠性。這種能力讓AI在面對有限監(jiān)督信號(hào)時(shí)仍能保持高效學(xué)習(xí),避免被錯(cuò)誤信息誤導(dǎo)。

對于普通用戶而言,TRAPO的成功意味著未來可能出現(xiàn)更多高質(zhì)量但成本較低的AI應(yīng)用。無論是個(gè)人助手、教育工具還是專業(yè)分析軟件,都可能因?yàn)檫@種高效的訓(xùn)練方法而變得更加智能和實(shí)用,同時(shí)保持相對親民的價(jià)格。這項(xiàng)研究發(fā)表在arXiv平臺(tái)上,編號(hào)為2512.13106v1,有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過該編號(hào)查找完整論文。

Q&A

Q1:TRAPO是什么?它解決了什么問題?

A:TRAPO是由浙江大學(xué)和螞蟻集團(tuán)聯(lián)合開發(fā)的半監(jiān)督強(qiáng)化學(xué)習(xí)框架,主要解決大型語言模型訓(xùn)練中標(biāo)注數(shù)據(jù)成本過高的問題。它能讓AI模型用極少量的標(biāo)準(zhǔn)答案配合大量無標(biāo)準(zhǔn)答案的數(shù)據(jù)進(jìn)行學(xué)習(xí),就像用少數(shù)幾個(gè)好老師指導(dǎo)一大群學(xué)生互相學(xué)習(xí)。

Q2:TRAPO如何判斷哪些無標(biāo)注數(shù)據(jù)是可靠的?

A:TRAPO通過追蹤每個(gè)樣本在訓(xùn)練過程中的"學(xué)習(xí)軌跡"來判斷可靠性。它觀察模型在處理不同問題時(shí)正確率的變化模式,如果某個(gè)無標(biāo)注樣本的學(xué)習(xí)軌跡與已知正確樣本相似,就認(rèn)為這個(gè)樣本包含有價(jià)值的信息,可以用于訓(xùn)練。

Q3:使用TRAPO方法能節(jié)省多少標(biāo)注成本?

A:實(shí)驗(yàn)顯示TRAPO能大幅節(jié)省標(biāo)注成本,用4000個(gè)標(biāo)注樣本配合12000個(gè)無標(biāo)注樣本的效果,甚至超過了使用45000個(gè)全標(biāo)注樣本的傳統(tǒng)方法。這意味著標(biāo)注工作量可以減少到原來的十分之一,同時(shí)還能獲得更好的效果。

免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。

全站最新
国产精品综合一区二区三区| av激情久久| 日韩**中文字幕毛片| 国产亚洲欧美精品久久久www| 国产一级生活片| 四虎免费在线观看| 国产无遮挡一区二区三区毛片日本| 亚洲欧美一区二区精品久久久| 有码中文亚洲精品| 国产精品视频地址| 人人艹在线视频| 午夜精品久久久久久久蜜桃| 天天插天天干天天操| 99综合电影在线视频| 久久国产欧美日韩精品| 丁香六月综合激情| 欧美日韩国产成人在线91| 免费成人深夜夜行视频| 青青草手机在线观看| 成人欧美一区二区三区黑人麻豆| 欧美一区二区三区……| aaa毛片在线观看| 日本91福利区| 亚洲深夜福利视频| 国产婷婷成人久久av免费高清| 亚洲一区二区自拍| japanese中文字幕| 中文字幕 欧美激情| av亚洲精华国产精华精| 日韩av不卡电影| 91制片厂毛片| 国产一级精品在线| 91国语精品自产拍在线观看性色| 成人性生活视频免费看| 国产精品无码久久久久一区二区| 艳妇乳肉豪妇荡乳av无码福利| xnxx国产精品| 超碰97人人人人人蜜桃| 无码人妻aⅴ一区二区三区| 国产午夜精品理论片| 国产自产一区二区| 97人妻一区二区精品免费视频| 久久久久久天堂| 国产精品久久久久久久久晋中 | 日本三级一区二区| 久久久高清一区二区三区| 久久成人在线观看| 亚洲精品成人在线| 欧美激情视频网址| 男女污污的视频| 亚洲国产综合网| 午夜影院久久久| 亚洲毛片一区二区| 国产高清精品一区二区| 日本免费福利视频| 国产亚洲精品资源在线26u| 亚洲精品ww久久久久久p站| 岛国精品视频在线播放| 日韩欧美高清dvd碟片| 黄色小网站91| 九九热精品在线播放| 二区三区四区视频| 日本美女一区二区| 视频二区在线观看| 精品欧美一区二区久久| 免费国产成人av| 99视频在线观看免费| 久久精品视频一区二区三区| 国产日产精品1区| 亚洲精品www| 欧美二区在线看| 日韩精品一区二区av| 欧美电影免费提供在线观看| 不卡av免费在线| 久久久精品国产免大香伊| 亚洲日本理论电影| 日韩精品高清不卡| 精品裸体舞一区二区三区| 一级黄色片在线| 日韩av在线免费| 天天爱天天做天天爽| 精品国产免费av| 国内精品中文字幕| 中文字幕在线播放不卡一区| 国产视频久久久| 久久久久无码国产精品不卡| 伦理中文字幕亚洲| 久久午夜羞羞影院免费观看| 日韩在线观看视频一区二区| 毛片在线视频观看| 中文字幕欧美亚洲| 高清在线观看日韩| 无码内射中文字幕岛国片| 视频在线观看一区二区三区| 欧美日韩无遮挡| 国产喂奶挤奶一区二区三区| www.欧美黄色| 亚洲国产精品久久久久爰性色| 亚洲第一区第一页| 成人午夜免费福利| 国产免费一区视频观看免费| 国产精品99久| 蜜桃免费在线视频| 亚洲视频一区二区免费在线观看| 日韩在线导航| 精品久久久视频| 中文字幕在线有码| 亚洲成人自拍视频| 精品一区精品二区| 久久精品在这里| 国产免费999| 亚洲永久精品大片| 久久久久久久久福利| 欧美专区在线观看| 午夜av入18在线| 日本a级片电影一区二区| 欧美bbbbb| 中文字幕人妻熟女在线| 日韩一区二区影院| 大胸美女被爆操| 欧美综合国产精品久久丁香| 91黄色免费视频| 国产日韩精品在线观看| 国产精品久久久久久久久动漫| 亚洲 欧美 激情 小说 另类| 国产欧美一级片| 久久精品无码人妻| 99九九99九九九99九他书对| 欧美激情欧美激情| 中文字幕亚洲综合久久菠萝蜜| 特级黄色片视频| 亚洲国产欧美一区二区三区同亚洲| 一炮成瘾1v1高h| 久久久噜久噜久久综合| 国产日产精品一区二区三区| 国产精品中文在线| 理论片在线不卡免费观看| 麻豆精品一区二区av白丝在线| 91女神在线观看| 国产精品激情自拍| aaa人片在线| 亚洲综合中文字幕在线| 亚洲亚洲精品在线观看| 国产又黄又爽视频| 91久久久久久| 国产ts人妖一区二区三区| 亚洲女人被黑人巨大进入al| 日韩欧美的一区| 精品国产一区二区三区av性色| 精品污污网站免费看| 久久嫩草精品久久久久| 九九热这里有精品视频| 国产v综合v亚洲欧美久久| 亚欧色一区w666天堂| 天天综合网久久综合网| 亚洲.欧美.日本.国产综合在线| 国产精品另类一区| 精品无码人妻少妇久久久久久| 国产91在线免费| 国产999在线观看| 日韩成人性视频| 久久久久久9999| 黄色片在线免费| 一本一本久久a久久精品牛牛影视| 亚洲天堂中文字幕| 粉嫩一区二区三区性色av| 激情综合网最新| 懂色av中文字幕一区二区三区| 麻豆成人av在线| 日韩在线一二三区| 奇米色777欧美一区二区| 久久久久久久久久成人| 男人天堂999| 国产精品国产自产拍高清av水多| 欧美在线不卡视频| 国产一区在线观看视频| 欧美黄网在线观看| 亚洲色图av在线| 国产黄人亚洲片| 91丨九色丨国产丨porny| 日韩久久久久久久久| 原创真实夫妻啪啪av| 欧洲亚洲一区二区三区四区五区| 欧美性xxxxxxxx| 国产精品久久久久久久久久久久久久久久久久| 久久久久成人精品无码| 日韩中文字幕有码| 极品尤物一区二区| a级片在线播放| 久久久久高清精品| 亚洲成人手机在线| 欧美在线观看18| 欧美性xxxx| 国产精品影视网| 91无套直看片红桃| 久久久久亚洲AV| 一级性生活大片| 免费毛片一区二区三区久久久| 国产一区二区黄| 日韩av在线不卡| 欧美精品激情blacked18| 欧美成年人视频网站| 日韩午夜av电影| 亚洲最大成人网4388xx| www..com久久爱| 国产波霸爆乳一区二区| 91超薄肉色丝袜交足高跟凉鞋| 欧美激情欧美激情| 韩国v欧美v日本v亚洲| 一本色道久久综合狠狠躁篇怎么玩| 精品视频—区二区三区免费| 欧美激情一区二区三区高清视频 | 污污视频在线免费| 日韩福利在线| 国产日韩欧美视频在线| 国产免费xxx| 手机看片日韩国产| 一级黄色香蕉视频| 亚洲欧美视频在线播放| 亚洲aaa视频| 97久久夜色精品国产九色| 国产精品久久久一区二区三区| 国产91精品久久久久久| 色一情一区二区三区四区| 男人的天堂免费| 99热这里只有精品5| 成人国产精品免费网站| 欧美不卡123| 亚洲国产91色在线| 亚洲国产小视频| 在线播放中文字幕一区| 日韩欧美aaaaaa| 精品久久一二三区| 久久久久久九九九| 91在线免费视频| 亚洲精品美女网站| 欧美综合视频在线观看| 91免费国产在线观看| 久久一二三四| 精品国产亚洲AV| 久久99国产精品久久99| av成人动漫在线观看| 成人午夜免费电影| 国产精品日日摸夜夜摸av| 色香蕉成人二区免费| 日韩一级完整毛片| 国产精品一区而去| 国产黄色录像视频| 成人国产精品视频| 亚洲精品美女久久| 国产一区二区不卡视频在线观看| 日韩.欧美.亚洲| 九九九九免费视频| 日本中文字幕有码| 国内成+人亚洲| 亚洲精品中文字幕乱码三区不卡| 手机在线成人免费视频| 午夜av免费看| 99九九精品视频| 在线观看一区二区三区视频| 天天做天天干天天操| 国产超碰在线播放| 欧美69精品久久久久久不卡| 日本一级二级视频| 日韩电影在线免费| 日韩欧美中文字幕在线观看| 日韩一区二区三区四区| 成人午夜在线影院| 国产一区二区视频免费在线观看| 十八禁一区二区三区| 亚洲欧美在线免费观看| 国产亚洲色婷婷久久| 蜜臀久久99精品久久久久久9| 亚洲成年人在线| 国产精品麻豆免费版| 激情综合激情五月| 国产精品2020| 成人国产视频在线观看| 亚洲国产精品yw在线观看| 国产精品污www一区二区三区| 免费不卡的av| 国产理论视频在线观看| 亚洲精品一区二区三区区别| 久久中文在线| 中文字幕精品综合| 91精品免费在线| 久久久免费电影| 日韩欧美第二区在线观看| 婷婷伊人五月天| 成人中文字幕在线| 在线视频一区二区三区| 5566日本婷婷色中文字幕97| 五月天激情小说| 精品一区二区精品| 国产精品久久久久久久久免费看| 欧美激情黑白配| 亚洲欧美日韩天堂| 国产精品偷伦视频免费观看了| 91一区一区三区| 色伦专区97中文字幕| 国产高清免费在线| 少妇久久久久久被弄高潮| 奇米一区二区三区av| 欧美精品视频www在线观看| 国产综合欧美在线看| 久久午夜无码鲁丝片| 国产精品久久久午夜夜伦鲁鲁| 国产不卡视频在线播放| 欧美在线高清视频| 国产精品视频久| 精品亚洲一区二区三区四区| 三级网站在线播放| 五月综合激情网| 成人欧美一区二区三区视频 | 亚洲综合日韩在线| 怡红院亚洲色图| 色欧美片视频在线观看| 久久精品网站免费观看| 国产一区二区导航在线播放| 亚洲第一第二区| 欧美a视频在线观看| 91高清免费观看| 人妻少妇精品视频一区二区三区| 国产又大又黄又猛| 缅甸午夜性猛交xxxx| 日本成人性视频| 日韩国产美国| 久久精品女人的天堂av| 2022国产精品| 国产精品xxx视频| 午夜精品美女自拍福到在线| 在线观看国产成人av片| 国产丝袜一区二区三区免费视频| 欧美精品日韩精品| 欧美无人高清视频在线观看| 婷婷中文字幕综合| 亚洲成人激情自拍| 亚洲午夜视频在线观看| 一区二区三区鲁丝不卡| 亚洲精品视频在线观看网站| 亚洲欧洲99久久| 国产精品不卡一区二区三区| 国产欧美日韩综合精品一区二区| av电影天堂一区二区在线| 波波电影院一区二区三区| 成人av网址在线观看| 北条麻妃一区二区三区| av一区二区三区黑人| 91亚洲精品久久久蜜桃| 久久丝袜美腿综合| 中文字幕巨乱亚洲| 亚洲宅男天堂在线观看无病毒| 亚洲一区二区三区在线看| 亚洲成人www| 色噜噜狠狠成人中文综合| 色综合中文综合网| 欧美视频一区二区三区在线观看| 欧美视频在线一区二区三区 | 蜜桃av免费看| 中文字幕高清视频| 黄色免费一级视频| 久久综合色综合| 91在线视频免费播放| 国产日产亚洲系列最新| 欧美 日韩 国产 成人 在线| 日本欧美在线观看| 成人在线综合网| 久久久精品天堂| 亚洲综合成人在线视频| 日本韩国一区二区三区| 日韩午夜av电影| 中文字幕日韩精品在线| 性视频1819p久久| 亚洲精品免费av| 日韩高清三级| 999久久欧美人妻一区二区| av片中文字幕| 伊人久久一区二区三区| 天天爽天天爽天天爽| 黄色大片网站在线观看| 国产成人精品a视频| 激情综合亚洲精品| 欧美国产欧美综合| 激情久久av一区av二区av三区| 3d动漫精品啪啪一区二区竹菊| 日韩成人中文字幕| 97碰碰碰免费色视频| 国产精品日韩一区二区| 蜜桃视频成人在线观看| 超碰在线公开97| 欧美激情视频二区| 精品一区二三区| 蜜臀久久99精品久久久久久9| 久久嫩草精品久久久精品一| 亚洲妇熟xx妇色黄| 亚洲精品国产成人| 欧美一级视频免费在线观看| 国产不卡一区二区在线观看| 天堂а√在线中文在线| 91av免费观看| 欧美成人aaaaⅴ片在线看| 国产 欧美 自拍| 久久色在线观看| 高跟丝袜欧美一区| 亚洲乱码一区二区| 国产精品一区av| 久久在线中文字幕| 婷婷色一区二区三区| 在线观看国产区| 北条麻妃国产九九精品视频|