![]()
這項(xiàng)由蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的唐澤成、季佰蓓等研究人員領(lǐng)導(dǎo)的重要研究發(fā)表于2025年10月,研究報(bào)告編號(hào)為arXiv:2510.06915v1。該研究首次揭示了當(dāng)前人工智能獎(jiǎng)勵(lì)模型在處理長(zhǎng)文本時(shí)的嚴(yán)重缺陷,并提出了創(chuàng)新的訓(xùn)練策略,讓小型模型在長(zhǎng)文本場(chǎng)景下的表現(xiàn)甚至超越了規(guī)模大十倍的模型。
在人工智能快速發(fā)展的今天,獎(jiǎng)勵(lì)模型就像是AI系統(tǒng)的"品味裁判",它們負(fù)責(zé)評(píng)估AI生成內(nèi)容的質(zhì)量好壞,確保AI的回應(yīng)既有用又安全。然而,當(dāng)這些裁判面對(duì)長(zhǎng)篇大論時(shí),卻經(jīng)常出現(xiàn)令人意外的問題。蘇州大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人震驚的現(xiàn)象:即使是最先進(jìn)的獎(jiǎng)勵(lì)模型,一旦處理的文本超過4000個(gè)字符,它們的判斷準(zhǔn)確率就會(huì)急劇下降到50%以下,基本上和隨機(jī)猜測(cè)沒什么區(qū)別。
這個(gè)發(fā)現(xiàn)的重要性不容小覷。在現(xiàn)實(shí)應(yīng)用中,AI助手經(jīng)常需要處理長(zhǎng)篇報(bào)告、復(fù)雜對(duì)話歷史或者多輪交互,而獎(jiǎng)勵(lì)模型的失效意味著AI系統(tǒng)無法準(zhǔn)確評(píng)估自己的表現(xiàn),就像一個(gè)廚師突然失去了味覺,無法判斷菜品的好壞。
為了解決這個(gè)難題,研究團(tuán)隊(duì)提出了一套全新的多階段訓(xùn)練策略。這個(gè)策略的核心思想可以用學(xué)習(xí)駕駛來類比:首先讓模型在相對(duì)簡(jiǎn)單的環(huán)境下學(xué)會(huì)基本操作(短文本到長(zhǎng)文本的數(shù)據(jù)合成),然后通過精細(xì)化訓(xùn)練讓它在復(fù)雜環(huán)境下也能保持穩(wěn)定表現(xiàn)(一致性多數(shù)投票對(duì)齊)。
在第一階段,研究團(tuán)隊(duì)采用了"從短到長(zhǎng)"的數(shù)據(jù)合成方法。就像教孩子游泳一樣,他們先讓模型在淺水區(qū)練習(xí)基本動(dòng)作,然后逐步增加難度。具體來說,他們首先識(shí)別長(zhǎng)文本中的關(guān)鍵片段,去除無關(guān)內(nèi)容,讓強(qiáng)大的模型在這些核心片段上生成可靠的判斷,然后再將無關(guān)內(nèi)容填充回去,形成完整的長(zhǎng)文本訓(xùn)練樣本。這樣做的好處是確保了訓(xùn)練標(biāo)簽的可靠性,同時(shí)讓模型學(xué)會(huì)在冗長(zhǎng)文本中抓住要點(diǎn)。
第二階段則采用了強(qiáng)化學(xué)習(xí)的方法,通過"一致性多數(shù)投票"來進(jìn)一步優(yōu)化模型。研究團(tuán)隊(duì)將傳統(tǒng)的成對(duì)比較任務(wù)重新設(shè)計(jì)為獨(dú)立的評(píng)分任務(wù),讓多個(gè)模型分別對(duì)同一內(nèi)容進(jìn)行評(píng)估,然后通過投票機(jī)制選出最一致、最可靠的判斷作為訓(xùn)練目標(biāo)。這個(gè)過程就像是組織一個(gè)專家評(píng)審團(tuán),通過集體智慧來確保評(píng)判的準(zhǔn)確性和一致性。
這種訓(xùn)練策略的效果令人矚目。研究團(tuán)隊(duì)在他們新構(gòu)建的Long-RewardBench基準(zhǔn)測(cè)試中發(fā)現(xiàn),經(jīng)過訓(xùn)練的8B參數(shù)模型不僅大幅超越了未經(jīng)訓(xùn)練的同規(guī)模模型,甚至在許多任務(wù)上擊敗了參數(shù)量達(dá)到70B的大型模型。更令人驚喜的是,這些小模型的表現(xiàn)甚至能夠媲美谷歌最新的Gemini 2.5 Pro這樣的頂級(jí)商業(yè)模型。
Long-RewardBench是研究團(tuán)隊(duì)專門為評(píng)估長(zhǎng)文本獎(jiǎng)勵(lì)建模能力而設(shè)計(jì)的綜合性基準(zhǔn)測(cè)試。這個(gè)基準(zhǔn)涵蓋了多種實(shí)際應(yīng)用場(chǎng)景,包括長(zhǎng)文檔問答、文檔摘要、安全性評(píng)估、代碼理解等七個(gè)核心任務(wù),文本長(zhǎng)度從4K字符一直延伸到128K字符。測(cè)試包含兩種評(píng)估方式:成對(duì)比較和多選排序,全面檢驗(yàn)?zāi)P驮诓煌瑥?fù)雜度下的表現(xiàn)。
在成對(duì)比較任務(wù)中,模型需要從兩個(gè)候選回答中選擇更好的一個(gè),就像在兩道菜中挑選更美味的那道。而在多選排序任務(wù)中,模型需要對(duì)3到4個(gè)不同質(zhì)量的回答進(jìn)行完整排序,這更考驗(yàn)?zāi)P偷募?xì)致判斷能力。研究團(tuán)隊(duì)通過精心設(shè)計(jì)的數(shù)據(jù)平衡策略,確保了測(cè)試的公平性和可靠性。
研究中一個(gè)特別有趣的發(fā)現(xiàn)是,傳統(tǒng)的上下文擴(kuò)展方法在獎(jiǎng)勵(lì)建模領(lǐng)域完全失效。研究團(tuán)隊(duì)嘗試了包括位置插值和長(zhǎng)文本監(jiān)督微調(diào)在內(nèi)的多種傳統(tǒng)方法,結(jié)果發(fā)現(xiàn)這些方法不僅沒有改善長(zhǎng)文本性能,反而嚴(yán)重?fù)p害了模型在短文本上的表現(xiàn)。這就像是為了讓汽車在高速公路上跑得更快而對(duì)發(fā)動(dòng)機(jī)進(jìn)行改裝,結(jié)果卻發(fā)現(xiàn)在城市道路上反而開不動(dòng)了。
通過深入的失效模式分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了兩個(gè)主要問題:格式錯(cuò)亂和上下文忽略、判斷與解釋不一致。在長(zhǎng)文本場(chǎng)景下,許多模型經(jīng)常無法遵循預(yù)定的輸出格式,或者生成的解釋與最終判斷相互矛盾。這表明模型在處理長(zhǎng)文本時(shí)不僅僅是性能下降,而是出現(xiàn)了根本性的理解偏差。
為了驗(yàn)證方法的實(shí)用性,研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)特別的實(shí)驗(yàn):使用訓(xùn)練好的長(zhǎng)文本獎(jiǎng)勵(lì)模型來指導(dǎo)其他模型的訓(xùn)練。結(jié)果顯示,在LongBench等真實(shí)長(zhǎng)文本任務(wù)上,被長(zhǎng)文本獎(jiǎng)勵(lì)模型指導(dǎo)的模型表現(xiàn)明顯優(yōu)于傳統(tǒng)方法訓(xùn)練的模型。這證明了長(zhǎng)文本獎(jiǎng)勵(lì)建模不僅在理論上重要,在實(shí)際應(yīng)用中也能帶來顯著改善。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。隨著AI系統(tǒng)在復(fù)雜任務(wù)中的應(yīng)用越來越廣泛,從法律文檔分析到科學(xué)論文審查,從代碼質(zhì)量評(píng)估到創(chuàng)意寫作指導(dǎo),都需要模型能夠在長(zhǎng)篇內(nèi)容中保持準(zhǔn)確的判斷能力。研究團(tuán)隊(duì)的工作為這些應(yīng)用奠定了重要基礎(chǔ)。
特別值得注意的是,這種方法的成本效益比非常高。整個(gè)訓(xùn)練過程在8張A100 GPU上只需要36小時(shí)就能完成,總訓(xùn)練成本控制在4B tokens以內(nèi)。這意味著即使是資源相對(duì)有限的研究機(jī)構(gòu)和公司,也能夠采用這種方法來改善自己的AI系統(tǒng)。
研究團(tuán)隊(duì)還將這種方法成功擴(kuò)展到了判別式獎(jiǎng)勵(lì)模型上,證明了方法的普適性。無論是生成式還是判別式模型,都能從這種訓(xùn)練策略中獲益。這種靈活性使得該方法能夠適應(yīng)不同的技術(shù)棧和應(yīng)用需求。
從更廣闊的視角來看,這項(xiàng)研究揭示了AI系統(tǒng)發(fā)展中一個(gè)重要的不平衡現(xiàn)象:模型的基礎(chǔ)能力提升速度遠(yuǎn)超過對(duì)其評(píng)估和監(jiān)督能力的發(fā)展。就像城市發(fā)展中交通基礎(chǔ)設(shè)施跟不上汽車普及速度一樣,AI領(lǐng)域也面臨著類似的挑戰(zhàn)。這項(xiàng)研究為縮小這種差距提供了重要的解決方案。
研究成果也指向了未來AI發(fā)展的一個(gè)重要方向:如何在保持高性能的同時(shí)確保系統(tǒng)的可控性和可解釋性。長(zhǎng)文本獎(jiǎng)勵(lì)建模技術(shù)的成熟將為開發(fā)更加智能、更加可靠的AI助手鋪平道路,讓這些系統(tǒng)能夠在復(fù)雜的現(xiàn)實(shí)場(chǎng)景中提供更好的服務(wù)。
總的來說,蘇州大學(xué)團(tuán)隊(duì)的這項(xiàng)研究不僅解決了一個(gè)重要的技術(shù)難題,更為AI系統(tǒng)的長(zhǎng)期發(fā)展提供了寶貴的思路和工具。通過巧妙的訓(xùn)練策略設(shè)計(jì),他們證明了小模型同樣可以在特定任務(wù)上取得卓越表現(xiàn),這對(duì)于推動(dòng)AI技術(shù)的普及和應(yīng)用具有重要意義。
Q&A
Q1:Long-RewardBench是什么?它和現(xiàn)有的AI評(píng)估有什么不同?
A:Long-RewardBench是蘇州大學(xué)團(tuán)隊(duì)專門為評(píng)估長(zhǎng)文本獎(jiǎng)勵(lì)建模能力而創(chuàng)建的基準(zhǔn)測(cè)試。與現(xiàn)有評(píng)估不同,它專門測(cè)試AI模型在處理4K到128K字符長(zhǎng)文本時(shí)的判斷能力,涵蓋文檔問答、摘要生成、安全評(píng)估等七個(gè)實(shí)際應(yīng)用場(chǎng)景,能夠發(fā)現(xiàn)現(xiàn)有模型在長(zhǎng)文本處理中的嚴(yán)重缺陷。
Q2:為什么8B參數(shù)的小模型能夠擊敗70B參數(shù)的大模型?
A:這主要?dú)w功于蘇州大學(xué)團(tuán)隊(duì)開發(fā)的多階段訓(xùn)練策略。通過"從短到長(zhǎng)"的數(shù)據(jù)合成和一致性多數(shù)投票對(duì)齊,小模型學(xué)會(huì)了在長(zhǎng)文本中抓住關(guān)鍵信息并保持判斷一致性。大模型雖然參數(shù)多,但沒有針對(duì)長(zhǎng)文本獎(jiǎng)勵(lì)建模進(jìn)行專門優(yōu)化,所以在這個(gè)特定任務(wù)上反而表現(xiàn)不如經(jīng)過專門訓(xùn)練的小模型。
Q3:這項(xiàng)技術(shù)能應(yīng)用到哪些實(shí)際場(chǎng)景中?
A:這項(xiàng)技術(shù)可以廣泛應(yīng)用于需要處理長(zhǎng)文本的AI場(chǎng)景,比如法律文檔分析、學(xué)術(shù)論文審查、代碼質(zhì)量評(píng)估、長(zhǎng)篇?jiǎng)?chuàng)意寫作指導(dǎo)等。特別是在AI助手需要理解復(fù)雜對(duì)話歷史或多輪交互的情況下,這種長(zhǎng)文本獎(jiǎng)勵(lì)建模技術(shù)能夠顯著提升AI系統(tǒng)的可靠性和實(shí)用性。





京公網(wǎng)安備 11011402013531號(hào)