![]()
當前,大語言模型(LLM)在醫療、金融、法律等專業領域,常因缺乏深度知識而表現較差,如何讓 LLM 在不同特定領域中發揮最佳性能,仍是一大挑戰。
現有主流方案包括領域自適應預訓練(DAPT)和檢索增強生成(RAG)。然而,DAPT需要進行耗時的全參數訓練,且易產生災難性遺忘,難以讓多個模型在同一領域中高效適配;而 RAG 也因昂貴的 kNN 搜索和更長的上下文,推理延遲大大增加。
而且,由于 RAG 的即插即用特性與 DAPT 的推理效率之間存在固有矛盾,開發既能跨模型適應,又能在部署時保持計算效率的解決方案,仍為空白。
為此,來自上海交通大學和上海AI Lab的研究團隊提出了一個“即插即用”的預訓練記憶模塊——“記憶解碼器”(Memory Decoder),無需修改原模型參數,即可適配不同尺寸模型,實現 LLM 的高效領域適應。
![]()
論文鏈接:https://arxiv.org/abs/2508.09874v1
Memory Decoder 的核心創新在于其“即插即用”的特性。經過訓練后,單個Memory Decoder可無縫集成到任何使用相同 tokenizer 的 LLM 中,而無需進行模型特定調整或額外訓練。這種設計實現了跨不同模型架構的即時部署,顯著降低了部署成本。
實驗結果表明,Memory Decoder 能夠有效地將各種 Qwen 和 Llama 模型適應于生物醫學、金融和法律專業領域,困惑度平均降低 6.17%。
架構
在預訓練階段,Memory Decoder 通過分布對齊損失函數,學習如何將其輸出分布與非參數檢索器生成的分布進行對齊。
在推理階段,Memory Decoder 與基礎語言模型并行處理輸入數據,通過插值其分布生成領域增強型預測結果,且無需額外的檢索開銷。
![]()
圖|Memory Decoder 架構概覽,在預訓練階段學習模仿非參數檢索分布,在推理階段無縫集成任何兼容的語言模型,從而消除數據存儲維護和 kNN 搜索帶來的計算開銷。
與傳統基于單標簽目標的語言建模方法不同,kNN 分布通過捕捉領域內合理延續的多樣性,提供更豐富的監督信號。大量實驗驗證,混合目標函數能獲得最佳性能。這一研究方法的核心在于引入分布對齊損失函數,該函數通過最小化 Memory Decoder 輸出分布與緩存 kNN 分布之間的 KL 散度來實現。
![]()
圖|跨領域適應方法的推理延遲比較
經過預訓練的 Memory Decoder 能夠通過簡單的插值操作,將任何語言模型與兼容的 tokenizer 適配到目標領域。
相比其他領域自適應技術,Memory Decoder 僅需對相對較小的 transformer 解碼器進行單次前向傳播,在推理效率上實現了顯著提升。Memory Decoder 與 LLM 之間的進程通信開銷可通過延長推理時間來分攤,而 kNN 搜索則會隨數據量線性增長。這種計算優勢結合 Memory Decoder 的“模型無關”設計,使其在對性能和效率都至關重要的生產環境中具有獨特價值。
性能評估
研究團隊評估了 Memory Decoder 在 6 種互補場景下的性能:
在 WikiText-103 數據集上的語言建模,驗證其在不同規模 GPT-2 模型中的適用性;
下游任務測試,驗證領域適應過程中通用能力的保留效果;
跨模型適應,展示單個 Memory Decoder 在 Qwen 模型(0.5B-72B)帶來的性能提升;
跨詞匯適應,證明不同 tokenizer 間的高效遷移能力;
知識密集型問答任務,證明 Memory Decoder 在保持推理能力的同時也可以增強事實回憶功能——這是傳統檢索方法的關鍵局限;
針對特定領域的下游任務,驗證其在 13 項真實場景基準測試中對上下文學習能力的保持。
具體如下:
1.WikiText-103中的語言建模
![]()
表|GPT2 模型在 WikiText-103 數據集上的域適應方法的困惑度對比
上表展示了 Memory Decoder在所有 GPT2 模型尺寸上的有效性。僅需 1.24 億參數的單個 Memory Decoder,就能顯著提升整個 GPT2 系列模型的性能,展現了其即插即用的優勢——無論基礎模型規模如何。
即使在應用于更大規模的模型時,盡管 DAPT 由于采用全模型更新而具有固有優勢,Memory Decoder 依然保持著強勁的競爭力,且在不修改任何原始參數的情況下,能夠持續超越其他所有參數優化方法。
這些結果證明,小參數解碼器既能有效發揮非參數檢索的優勢,又能大幅降低計算開銷。
2.下游性能
![]()
表|在情感分析、文本蘊含和文本分類等 9 種不同 NLP 任務上的性能表現
如上表,在零樣本評估環境中,Memory Decoder 在增強領域適應的同時保持通用語言功能的能力。與在多個任務中出現災難性遺忘的 DAPT 不同,Memory Decoder 在所有評估任務中,均能保持或提升性能。
這一方法在全部 9 項任務中均取得最高平均分。不僅超越了基礎模型、kNN-LM 和 LoRA,還在 CB、RTE 等文本蘊含任務中展現出獨特優勢。
這些結果驗證了這一架構的核心優勢:在保持原始模型參數完整的同時,Memory Decoder 通過融入領域知識,實現了無需犧牲通用能力的領域適應。
3.跨模型適應
![]()
表|三個專業領域的跨模型適應結果
上表展示出 Memory Decoder 在不同模型規模和架構上的即插即用能力。單個Memory Decoder (0.5B 參數)在 Qwen2 和 Qwen2.5 系列的所有模型中均能持續提升性能。單一預訓練記憶組件可提升共享同一 tokenizer 的多個模型,實現高效的領域適應擴展,使得不同尺寸模型都能持續超越現有方法。
4.跨詞匯適應
![]()
表|跨模型知識遷移效果顯著
上表展示了 Memory Decoder 在不同 tokenizer 和模型架構下的泛化能力。通過僅重新初始化基于 Qwen2.5 訓練的 Memory Decoder 的嵌入層和語言模型頭,團隊成功將其適配到 Llama 模型家族,且僅需原訓練預算的 10%。這種高效的遷移能力使所有 Llama 變體都實現了性能提升。
對于 Llama3-8B,Memory Decoder 在生物醫學和金融領域降低了約 50% 困惑度。類似的改進也延伸至 Llama3.1 和 Llama3.2,他們的方法在生物醫學和金融領域始終優于 LoRA,但在法律文本領域仍有改進空間。
這些發現表明,Memory Decoder 的通用性超越了單一 tokenizer 家族,證明了從單一架構中習得的領域知識可以高效遷移至其他架構,且僅需要少量額外訓練。這一能力擴展了我們方法的實際應用價值,為在多樣化的模型生態系統中實現領域適應提供了簡化的路徑。
5.知識密集型推理任務
![]()
表|知識密集型問答任務的性能表現
雖然 RAG 方法在提升事實記憶方面表現出色,但在同時需要知識檢索與復雜推理的任務中卻常常表現較差。先前研究表明,盡管 kNN-LM 能從相關維基百科語料庫中檢索信息,但在知識密集型問答任務中反而可能影響性能表現。
如上表所示,Memory Decoder 在兩項基準測試中成功增強了模型獲取事實性知識的能力,同時保持了推理能力,解決了傳統檢索方法的根本性局限。
實驗結果表明,通過學習內化檢索模式而非依賴顯式推理,Memory Decoder 在保持處理復雜多跳問題所需組合推理能力的同時,還能充分利用擴展后的知識訪問優勢。
不足
以上結果證明,Memory Decoder 保留了檢索方法的記憶能力,又兼具參數化方法的高效性和泛化優勢。
Memory Decoder 的多功能性和高效性,使得它能無縫增強任何共享相同 tokenizer 的模型,且只需少量額外訓練即可適配不同 tokenizer 和架構的模型。這種能力使得跨模型家族的高效領域適應成為可能,大幅減少了專用模型開發通常所需的資源。
可以說,Memory Decoder開創了領域自適應的新范式,并從根本上重新定義了如何為特定領域定制語言模型。通過預訓練記憶組件將領域專業知識與模型架構解耦,這一方法構建了一個更模塊化、高效且易于訪問的框架,從而能夠提升語言模型在專業領域的表現。
然而,Memory Decoder也并非完美,依然存在一些局限性。
例如,在預訓練階段,Memory Decoder 需要通過 KV 數據存儲進行搜索,以獲取 kNN 分布作為訓練信號,這會產生計算開銷。盡管該成本僅在每個領域中產生一次,且可分攤至所有適應模型,但這仍是整個流程中的瓶頸。
此外,盡管跨 tokenizer 適應相比從頭訓練所需參數更新較少,但仍需進行部分參數調整以對齊嵌入空間,阻礙了真正「零樣本跨架構遷移」的實現。
作者:小瑜
如需轉載或投稿,請直接在公眾號內留言





京公網安備 11011402013531號