![]()
這項(xiàng)由阿聯(lián)酋穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)的研究團(tuán)隊(duì),包括Zayd M. K. Zuhri、Erland Hilman Fuadi和Alham Fikri Aji在2025年8月發(fā)表的研究,提出了一種名為"令牌順序預(yù)測(cè)"(Token Order Prediction, TOP)的全新訓(xùn)練方法。有興趣深入了解的讀者可以通過(guò)論文鏈接https://github.com/zaydzuhri/token-order-prediction訪問(wèn)完整研究成果。
當(dāng)我們使用ChatGPT或其他AI聊天工具時(shí),它們背后的工作原理就像一個(gè)超級(jí)厲害的"接龍游戲"選手。給定前面的文字,AI需要猜測(cè)下一個(gè)最合適的詞是什么。這種訓(xùn)練方式被稱為"下一個(gè)詞預(yù)測(cè)",就好比你在玩填空游戲,必須準(zhǔn)確填出空白處的那個(gè)詞。
然而,研究人員發(fā)現(xiàn)這種方法有些局限性。為了讓AI表現(xiàn)更好,他們嘗試了一種叫做"多令牌預(yù)測(cè)"的方法,這就像讓AI不僅要猜下一個(gè)詞,還要同時(shí)猜出后面的第二個(gè)、第三個(gè)、第四個(gè)詞。這聽起來(lái)很厲害,但實(shí)際使用中效果并不穩(wěn)定,有時(shí)候反而會(huì)讓AI的表現(xiàn)變差。
研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn)了問(wèn)題所在。他們訓(xùn)練了一個(gè)小型AI模型,讓它同時(shí)預(yù)測(cè)未來(lái)16個(gè)位置的詞匯,然后觀察訓(xùn)練過(guò)程。結(jié)果就像爬樓梯一樣,預(yù)測(cè)距離越遠(yuǎn)的詞,難度就呈階梯式上升。預(yù)測(cè)緊接著的下一個(gè)詞相對(duì)容易,但要準(zhǔn)確預(yù)測(cè)第10個(gè)或第16個(gè)位置的詞就變得極其困難,訓(xùn)練效果也明顯下降。這就好比讓你站在一個(gè)路口,不僅要猜測(cè)下一個(gè)路口會(huì)遇到什么,還要精確預(yù)測(cè)10個(gè)路口后會(huì)發(fā)生什么事情,顯然后者的難度要大得多。
基于這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案:既然精確預(yù)測(cè)很困難,為什么不讓AI學(xué)會(huì)"排序"呢?他們開發(fā)了令牌順序預(yù)測(cè)方法,這種方法不要求AI準(zhǔn)確說(shuō)出下一個(gè)詞是什么,而是讓它對(duì)所有可能的詞按照"出現(xiàn)的先后順序"進(jìn)行排列。
這個(gè)想法的巧妙之處在于,它將一個(gè)極其困難的精確預(yù)測(cè)任務(wù)轉(zhuǎn)換成了一個(gè)相對(duì)容易的排序任務(wù)。就像你在圖書館整理書籍時(shí),雖然你可能不知道讀者下一本要借的確切書名,但你可以根據(jù)書籍的熱門程度和相關(guān)性,大致排出哪些書更可能被先借走。這種排序能力雖然不如精確預(yù)測(cè)那么"神奇",但卻更實(shí)用、更容易掌握。
具體來(lái)說(shuō),令牌順序預(yù)測(cè)的工作機(jī)制是這樣的:對(duì)于每個(gè)位置的詞匯,AI需要查看后續(xù)一定范圍內(nèi)的文本內(nèi)容,然后為詞匯表中的每個(gè)詞分配一個(gè)"接近度分?jǐn)?shù)"。離當(dāng)前位置越近的詞匯得分越高,越遠(yuǎn)的得分越低。這就像制作一個(gè)"出場(chǎng)順序表",按照詞匯在后續(xù)文本中出現(xiàn)的先后順序給它們排名。
研究團(tuán)隊(duì)采用了一種來(lái)自"學(xué)習(xí)排序"領(lǐng)域的數(shù)學(xué)方法來(lái)訓(xùn)練這個(gè)系統(tǒng)。這種方法不像傳統(tǒng)的分類那樣要求給出唯一正確答案,而是允許AI給出一個(gè)"軟性"的排序結(jié)果,就像評(píng)委為選手打分一樣,可以給出連續(xù)的分?jǐn)?shù)而不是簡(jiǎn)單的"對(duì)"或"錯(cuò)"。
在技術(shù)實(shí)現(xiàn)上,令牌順序預(yù)測(cè)比多令牌預(yù)測(cè)要簡(jiǎn)單得多。多令牌預(yù)測(cè)需要為每個(gè)要預(yù)測(cè)的未來(lái)位置都添加一個(gè)完整的變換器層,就像在原有的AI"大腦"上接上好幾個(gè)額外的"處理單元"。而令牌順序預(yù)測(cè)只需要添加一個(gè)簡(jiǎn)單的輸出層,就像在現(xiàn)有系統(tǒng)上加裝一個(gè)"排序器"。這種設(shè)計(jì)不僅節(jié)省了計(jì)算資源,還讓整個(gè)系統(tǒng)更容易維護(hù)和升級(jí)。
為了驗(yàn)證這個(gè)想法的有效性,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的對(duì)比實(shí)驗(yàn)。他們分別訓(xùn)練了三種不同規(guī)模的AI模型:包含3.4億參數(shù)的小型模型、18億參數(shù)的中型模型,以及70億參數(shù)的大型模型。每種規(guī)模都分別用傳統(tǒng)的下一詞預(yù)測(cè)、多令牌預(yù)測(cè),以及他們提出的令牌順序預(yù)測(cè)方法進(jìn)行訓(xùn)練。
實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)來(lái)自FineWeb-Edu數(shù)據(jù)集的子集,這是一個(gè)經(jīng)過(guò)精心篩選的高質(zhì)量文本集合。小型模型使用了520億個(gè)詞匯進(jìn)行訓(xùn)練,而中型和大型模型則使用了1040億個(gè)詞匯。訓(xùn)練過(guò)程就像讓不同規(guī)模的學(xué)生用不同的學(xué)習(xí)方法來(lái)掌握語(yǔ)言知識(shí),然后比較他們?cè)诟黜?xiàng)測(cè)試中的表現(xiàn)。
測(cè)試環(huán)節(jié)包括了八個(gè)標(biāo)準(zhǔn)的自然語(yǔ)言處理任務(wù),涵蓋了閱讀理解、常識(shí)推理、科學(xué)問(wèn)答等多個(gè)方面。這些測(cè)試就像給AI學(xué)生安排了語(yǔ)文、數(shù)學(xué)、科學(xué)等不同科目的綜合考試,全面評(píng)估它們的語(yǔ)言理解和推理能力。
實(shí)驗(yàn)結(jié)果讓人印象深刻。在大多數(shù)測(cè)試任務(wù)中,使用令牌順序預(yù)測(cè)訓(xùn)練的模型都表現(xiàn)出了更好的性能。特別是在大型模型上,這種優(yōu)勢(shì)更加明顯。例如,在TriviaQA這個(gè)常識(shí)問(wèn)答測(cè)試中,70億參數(shù)的令牌順序預(yù)測(cè)模型比傳統(tǒng)方法訓(xùn)練的模型提高了6.63個(gè)百分點(diǎn),這是一個(gè)相當(dāng)顯著的改進(jìn)。
有趣的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)意外現(xiàn)象:雖然使用令牌順序預(yù)測(cè)的模型在訓(xùn)練時(shí)的損失值稍高一些,但它們?cè)趯?shí)際測(cè)試中的表現(xiàn)卻更好。這就像一個(gè)學(xué)生在練習(xí)時(shí)可能錯(cuò)誤稍多,但在正式考試中反而發(fā)揮更好。研究人員認(rèn)為這可能是因?yàn)榱钆祈樞蝾A(yù)測(cè)起到了某種"正則化"的作用,類似于給AI增加了適度的"學(xué)習(xí)難度",反而幫助它避免了過(guò)度擬合,提高了泛化能力。
與多令牌預(yù)測(cè)相比,令牌順序預(yù)測(cè)在小規(guī)模模型上也展現(xiàn)出了更好的適應(yīng)性。研究結(jié)果顯示,多令牌預(yù)測(cè)往往需要模型達(dá)到一定規(guī)模(通常是10億到30億參數(shù)之間)才能顯示出優(yōu)勢(shì),而令牌順序預(yù)測(cè)即使在3.4億參數(shù)的小模型上也能帶來(lái)改善。這對(duì)于資源有限的應(yīng)用場(chǎng)景來(lái)說(shuō)具有重要意義。
從實(shí)用角度來(lái)看,令牌順序預(yù)測(cè)還有一個(gè)重要優(yōu)勢(shì):它在推理時(shí)的表現(xiàn)與傳統(tǒng)模型完全相同。訓(xùn)練完成后,額外的排序輸出層可以被移除,模型就變回了標(biāo)準(zhǔn)的變換器結(jié)構(gòu)。這意味著采用這種訓(xùn)練方法不會(huì)增加部署時(shí)的計(jì)算負(fù)擔(dān),也不會(huì)影響推理速度。
研究團(tuán)隊(duì)還對(duì)比了他們的方法與最近其他改進(jìn)嘗試的效果。結(jié)果顯示,即使是像DeepSeek-V3這樣只預(yù)測(cè)未來(lái)兩個(gè)詞的簡(jiǎn)化版多令牌預(yù)測(cè),在一般任務(wù)上的效果也不如令牌順序預(yù)測(cè)穩(wěn)定。這進(jìn)一步證實(shí)了他們的核心觀點(diǎn):相比于追求精確的多步預(yù)測(cè),學(xué)會(huì)合理的順序排列是一個(gè)更可行、更有效的改進(jìn)方向。
值得注意的是,這項(xiàng)研究還為AI訓(xùn)練領(lǐng)域帶來(lái)了一個(gè)重要的方法論啟示:有時(shí)候降低任務(wù)難度反而能獲得更好的效果。這種"以退為進(jìn)"的思路在其他領(lǐng)域也有類似的應(yīng)用,比如在教育中,循序漸進(jìn)的學(xué)習(xí)往往比一步到位更有效。
從技術(shù)實(shí)現(xiàn)角度,研究團(tuán)隊(duì)還開發(fā)了一個(gè)高效的計(jì)算內(nèi)核,能夠在訓(xùn)練過(guò)程中實(shí)時(shí)生成令牌順序預(yù)測(cè)的目標(biāo)序列,幾乎不增加額外的計(jì)算開銷。這種優(yōu)化確保了新方法在實(shí)際應(yīng)用中的可行性。
這項(xiàng)研究的意義不僅僅在于提出了一種新的訓(xùn)練方法,更重要的是它展示了重新思考基礎(chǔ)問(wèn)題的價(jià)值。當(dāng)多令牌預(yù)測(cè)這種看似更強(qiáng)大的方法遇到瓶頸時(shí),研究人員沒(méi)有沿著"更多預(yù)測(cè)步數(shù)"的路線繼續(xù)前進(jìn),而是轉(zhuǎn)換思路,尋找到了一個(gè)更巧妙的解決方案。
目前這項(xiàng)研究還處于早期階段,研究團(tuán)隊(duì)計(jì)劃在未來(lái)版本中加入更多的實(shí)驗(yàn)內(nèi)容,包括與DeepSeek-V3版本的多令牌預(yù)測(cè)進(jìn)行對(duì)比,在生成性任務(wù)如代碼編寫和文本總結(jié)上的測(cè)試,以及對(duì)一些特定合成任務(wù)的評(píng)估。這些后續(xù)工作將進(jìn)一步驗(yàn)證令牌順序預(yù)測(cè)在更廣泛應(yīng)用場(chǎng)景中的潛力。
說(shuō)到底,這項(xiàng)研究告訴我們一個(gè)簡(jiǎn)單而深刻的道理:在AI的世界里,有時(shí)候"聰明"并不意味著要做最困難的事情,而是要找到最合適的方法。令牌順序預(yù)測(cè)雖然放棄了精確預(yù)測(cè)未來(lái)的"神通",但卻獲得了更好的實(shí)際效果,這種務(wù)實(shí)的智慧值得我們?cè)诮鉀Q其他復(fù)雜問(wèn)題時(shí)借鑒。對(duì)于普通人來(lái)說(shuō),這意味著我們?nèi)粘J褂玫腁I助手可能會(huì)變得更加準(zhǔn)確和可靠,而這種改進(jìn)來(lái)自的不是更復(fù)雜的技術(shù),而是更聰明的訓(xùn)練策略。有興趣了解更多技術(shù)細(xì)節(jié)的讀者可以訪問(wèn)研究團(tuán)隊(duì)提供的開源代碼和完整論文。
Q&A
Q1:令牌順序預(yù)測(cè)和傳統(tǒng)的下一詞預(yù)測(cè)有什么區(qū)別?
A:傳統(tǒng)方法像填空游戲,必須準(zhǔn)確猜出下一個(gè)詞是什么。令牌順序預(yù)測(cè)則像制作"出場(chǎng)順序表",讓AI對(duì)所有可能的詞按出現(xiàn)先后順序排列,不需要精確猜測(cè),但能獲得更好的整體效果。
Q2:為什么令牌順序預(yù)測(cè)比多令牌預(yù)測(cè)效果更好?
A:多令牌預(yù)測(cè)要求AI同時(shí)準(zhǔn)確預(yù)測(cè)好幾個(gè)未來(lái)位置的詞,就像讓人精確預(yù)測(cè)10個(gè)路口后會(huì)發(fā)生什么,難度太大導(dǎo)致訓(xùn)練效果差。令牌順序預(yù)測(cè)只需要排序,難度適中,反而讓AI學(xué)得更好。
Q3:這種新方法會(huì)讓AI運(yùn)行變慢嗎?
A:不會(huì)。訓(xùn)練時(shí)雖然需要額外的排序模塊,但訓(xùn)練完成后這個(gè)模塊可以移除,最終的AI模型與傳統(tǒng)模型完全相同,運(yùn)行速度和資源消耗都沒(méi)有增加。





京公網(wǎng)安備 11011402013531號(hào)