![]()
這項由上海交通大學嚴軍池教授團隊領導的研究發表于2025年10月的arXiv預印本平臺,論文編號為arXiv:2510.18250v1,有興趣深入了解的讀者可以通過該編號查詢完整論文。
訓練大型語言模型就像教孩子學習一樣,需要大量高質量的學習材料。但現實中,即使是精心挑選的教材也會包含一些無用甚至誤導性的內容。如何在海量數據中挑選出真正有價值的部分,一直是人工智能領域的一個重要挑戰。
傳統的做法就像給孩子找一個經驗豐富的老師作為參照標準。研究人員需要先訓練一個"參考模型",然后用這個模型來判斷哪些數據片段值得學習。這種方法雖然有效,但存在明顯問題:首先需要額外的時間和計算資源來訓練參考模型,其次這種方法只關注數據的"難易程度",卻忽略了數據的"語義重要性"。
上海交通大學的研究團隊提出了一種全新的解決方案,他們稱之為ssToken(自調節和語義感知的令牌選擇方法)。這個方法的巧妙之處在于,讓模型像照鏡子一樣,通過對比自己的"過去"和"現在"來判斷哪些數據最有學習價值。
一、突破傳統思路:讓模型成為自己的老師
想象一下,如果你正在學習一門新技能,比如學做菜。傳統方法就像請一位大廚在旁邊指導,告訴你哪些步驟重要,哪些可以忽略。但上海交大團隊的方法更像是讓你對比自己一個月前和現在的烹飪水平,從這種進步中發現哪些練習真正有效。
具體來說,ssToken方法不再依賴外部的參考模型,而是利用模型自身的訓練歷史。研究團隊將當前模型與其歷史版本(比如訓練初期的狀態)進行對比,計算每個數據片段上的損失差異。如果當前模型在某個數據片段上比歷史版本表現好很多,這就說明這個數據片段包含了模型仍在學習的有價值信息。
這種"回顧式過量損失"計算方法的數學原理相當直觀。研究團隊用當前模型和歷史模型分別計算同一個數據片段的預測概率,然后取對數比值。這個比值越大,說明當前模型在這個片段上的改進越明顯,也就意味著這個片段對模型學習的價值越高。
更進一步,研究團隊還設計了一種可選的動態更新機制。歷史模型不是固定不變的,而是可以通過指數移動平均的方式逐步更新,這樣既保持了歷史信息的穩定性,又能適應模型的長期發展軌跡。這就像給學習者提供了一個逐漸進化的參照標準,避免了固定參考點可能帶來的局限性。
二、融入語義理解:不只看難度,更看重要性
傳統的數據選擇方法就像只看考試分數來評價學生,雖然能反映學習效果,但忽略了知識的實際應用價值。一個數據片段可能在數學上很"困難",但在語義上卻不重要;相反,一些看似簡單的片段可能承載著關鍵的語義信息。
ssToken方法的第二個創新在于引入了基于注意力機制的語義重要性評估。這個概念聽起來復雜,但原理很直觀。在處理對話數據時,模型需要根據用戶的問題(提示詞)來生成回答。研究團隊發現,回答中每個詞對問題的"注意程度"可以很好地反映其語義重要性。
具體實現時,研究團隊測量回答中每個詞分配給問題的注意力權重總和。注意力高的詞通常承載著更多與任務相關的語義信息。比如在回答"如何做紅燒肉"時,"紅燒"、"調料"、"時間"等詞的注意力權重通常會比"的"、"了"、"在"等功能詞高得多。
為了確保這種方法在實際應用中高效可行,研究團隊還專門設計了輕量級的實現方案。他們采用鉤子函數在前向傳播過程中保存特定層的隱藏狀態,然后只重新計算該層以獲取注意力矩陣,這樣既能獲得所需信息,又不會顯著增加計算開銷。更重要的是,這種設計完全兼容現有的高效注意力機制,如FlashAttention。
三、雙重標準的智能融合:平衡損失信息和語義信號
有了自調節的損失信息和語義感知的注意力信號,下一個問題就是如何將它們有機結合。這就像在考慮一個員工的綜合表現時,既要看工作成果(損失信息),也要看工作態度和協作能力(語義信息)。
研究團隊設計了一個簡潔而有效的融合機制。首先,他們將回顧式過量損失標準化到0到1的范圍內,而注意力分數本身就在這個范圍內。然后引入一個平衡系數γ,用來控制兩種信號的相對權重。最終的評分公式是:γ × 標準化損失 + (1-γ) × 注意力分數。
這個平衡系數的選擇經過了大量實驗驗證。研究團隊發現,當γ等于0時,系統退化為純粹的語義選擇;當γ等于1時,系統退化為純粹的損失選擇。而γ取中間值(如0.5)時,通常能獲得最好的性能,這說明兩種信號確實具有互補性。
在實際應用中,系統會根據這個綜合評分對所有數據片段進行排序,然后選擇評分最高的一定比例(通常是60%)用于訓練。這個選擇比例也是經過大量實驗優化的,既能過濾掉無用信息,又能保留足夠的有效訓練數據。
四、實驗驗證:多個維度的全面測試
為了驗證ssToken方法的有效性,研究團隊進行了大規模的對比實驗。他們選擇了四個不同規模的主流語言模型作為測試對象,包括LLaMA-3.2-3B、LLaMA-3.1-8B、Qwen-2.5-7B和Qwen-2.5-14B,參數規模從30億到140億不等。
實驗數據來源于五個廣泛使用的監督微調數據集,包括Flan v2、OpenAssistant、Stanford Alpaca、Dolly和WizardLM,總共包含30萬個樣本。研究團隊從中精心挑選了5萬個高質量樣本作為實驗數據池,確保了實驗的公平性和可重復性。
評估環節同樣嚴格全面。研究團隊選擇了十個不同類型的基準測試,涵蓋了事實知識、推理能力、跨語言理解等多個維度。這些測試包括MMLU(大規模多任務語言理解)、TriviaQA(常識問答)、TruthfulQA(真實性問答)等知名基準。
實驗結果令人印象深刻。與完整數據訓練相比,ssToken方法在四個測試模型上分別獲得了4.3%、3.4%、1.3%和2.1%的性能提升。更重要的是,與現有的令牌選擇方法相比,ssToken方法的優勢更加明顯,最高可達2.8%的性能提升。
特別值得注意的是,ssToken方法在不同類型的任務上表現出了良好的穩定性。對于知識密集型任務如MMLU和ARC,令牌選擇的效果相對有限,這符合預期,因為這些任務更多依賴預訓練階段積累的知識。而對于需要強指令跟隨能力的任務如TyDiQA、TriviaQA和AGIeval,ssToken方法展現出了顯著優勢,這主要歸功于其語義感知組件能夠更好地識別與任務相關的令牌。
五、深入分析:方法的內在機制和優化策略
為了更好地理解ssToken方法的工作機制,研究團隊進行了細致的消融實驗。他們分別測試了不同平衡系數γ的影響,發現純粹的損失選擇(γ=1)和純粹的語義選擇(γ=0)都能單獨取得不錯的效果,但兩者結合時能產生協同效應,獲得更好的性能。
在注意力層選擇方面,研究團隊比較了使用淺層、中層和深層注意力的效果。結果顯示,深層注意力通常能提供更好的語義信號,這與現有研究一致:深層網絡更關注抽象語義和任務相關的全局信息,而淺層網絡主要處理句法和位置信息。
選擇比例的實驗也很有啟發性。研究團隊測試了從20%到80%不同的選擇比例,發現60%通常是一個不錯的平衡點。過低的比例可能會丟失有用信息,而過高的比例則無法有效過濾噪聲。有趣的是,對于更大的模型(如140億參數的Qwen-2.5-14B),最優比例可能會稍高一些(80%),這可能反映了大模型更強的學習能力和對復雜模式的敏感性。
六、效率與實用性:兼顧性能和成本
除了性能提升,訓練效率也是評估新方法的重要指標。傳統的基于參考模型的方法需要額外訓練一個參考模型,這不僅增加了計算成本,還延長了整個流程的時間。研究團隊的對比實驗顯示,RHO-1和TokenCleaning等傳統方法雖然能提升性能,但訓練時間顯著增加。
相比之下,ssToken方法幾乎不增加訓練時間。自調節機制直接利用現有的模型檢查點,無需額外訓練。語義感知組件通過巧妙的實現設計,只增加了微小的計算開銷。這種效率優勢使得ssToken方法在實際應用中更具吸引力。
從可擴展性角度看,ssToken方法也表現出了良好的潛力。隨著模型規模和數據量的增長,訓練額外參考模型的成本會快速上升,而ssToken方法的成本增長相對緩慢。這種特性對于資源受限的研究團隊或應用場景特別重要。
七、案例展示:看得見的改進效果
為了讓改進效果更加直觀,研究團隊提供了一些具體的選擇案例。在一個關于如何進行啞鈴彎舉的指導中,傳統方法和ssToken方法都能選擇出關鍵的動作要點,但ssToken方法能更好地平衡技術細節和安全提醒。
在化學知識問答中,當用戶詢問有機化合物類型時,不同方法的選擇結果大致相同,都能識別出"烷烴"、"飽和烴"等關鍵概念。但在更復雜的數學推理任務中,ssToken方法展現出了明顯優勢,能更準確地識別推理過程中的關鍵步驟。
這些案例表明,ssToken方法的改進不僅體現在數值指標上,更體現在對內容理解的深度和準確性上。特別是在需要復雜推理或深度理解的任務中,語義感知組件的價值更加明顯。
說到底,ssToken方法的成功在于它巧妙地解決了人工智能訓練中的一個根本問題:如何在沒有完美老師的情況下,讓機器自己學會選擇最有價值的學習材料。通過讓模型對比自己的成長軌跡,結合對語義重要性的理解,這種方法實現了既高效又智能的數據選擇。
這項研究的意義不僅限于技術層面的改進。它為人工智能的自主學習能力開辟了新的可能性,讓我們看到了機器在某種程度上具備"自我反思"和"價值判斷"能力的前景。雖然目前的方法還需要人工設定一些參數,如選擇比例和平衡系數,但研究團隊已經指出,未來的發展方向是讓這些參數也能自適應調整,進一步提升方法的自主性和適用性。
對于普通人而言,這項研究意味著未來的AI助手可能會變得更加智能和高效。它們不僅能更好地理解我們的需求,還能更有效地從海量信息中提取真正有價值的內容。當AI系統能夠更好地"選擇學習內容"時,它們在回答問題、生成內容和提供建議時的質量也會相應提升。
當然,正如研究團隊坦誠指出的,這種方法也有其局限性。選擇比例等關鍵參數仍需要根據具體應用場景進行調整,這在某種程度上限制了方法的通用性。但這些局限性也為后續研究指明了方向:開發能夠自適應調整參數的智能算法,讓數據選擇過程變得更加自主和靈活。
有興趣深入了解這項研究技術細節的讀者,可以通過arXiv預印本平臺搜索論文編號arXiv:2510.18250v1獲取完整論文,其中包含了詳細的算法描述、實驗設置和結果分析。
Q&A
Q1:ssToken方法為什么不需要額外訓練參考模型?
A:ssToken方法讓模型成為自己的老師,通過對比當前模型與其訓練歷史版本的表現差異來判斷數據價值。這就像學生通過對比自己的過去和現在的水平來發現哪些練習最有效,而不需要請外部老師來指導。
Q2:語義感知組件是如何工作的?
A:語義感知組件通過測量回答中每個詞對問題的注意力權重來評估重要性。注意力權重高的詞通常承載更多任務相關信息,就像在對話中我們會重點關注與話題相關的關鍵詞一樣。
Q3:ssToken方法在實際應用中效果如何?
A:實驗顯示ssToken方法比完整數據訓練提升性能最高4.3%,比其他令牌選擇方法提升最高2.8%,同時幾乎不增加訓練時間。特別是在需要強指令跟隨能力的任務上表現更加出色。





京公網安備 11011402013531號