不調參、不費力！上海交大&上海AI Lab推出“記憶解碼器”，任意LLM無縫自適應

IP屬地中國·北京 編輯：唐云澤學術頭條 時間：2025-08-26 16:25:36

當前，大語言模型（LLM）在醫療、金融、法律等專業領域，常因缺乏深度知識而表現較差，如何讓 LLM 在不同特定領域中發揮最佳性能，仍是一大挑戰。
現有主流方案包括領域自適應預訓練（DAPT）和檢索增強生成（RAG）。然而，DAPT需要進行耗時的全參數訓練，且易產生災難性遺忘，難以讓多個模型在同一領域中高效適配；而 RAG 也因昂貴的 kNN 搜索和更長的上下文，推理延遲大大增加。
而且，由于 RAG 的即插即用特性與 DAPT 的推理效率之間存在固有矛盾，開發既能跨模型適應，又能在部署時保持計算效率的解決方案，仍為空白。
為此，來自上海交通大學和上海AI Lab的研究團隊提出了一個“即插即用”的預訓練記憶模塊——“記憶解碼器”（Memory Decoder），無需修改原模型參數，即可適配不同尺寸模型，實現 LLM 的高效領域適應。

論文鏈接：https://arxiv.org/abs/2508.09874v1
Memory Decoder 的核心創新在于其“即插即用”的特性。經過訓練后，單個Memory Decoder可無縫集成到任何使用相同 tokenizer 的 LLM 中，而無需進行模型特定調整或額外訓練。這種設計實現了跨不同模型架構的即時部署，顯著降低了部署成本。
實驗結果表明，Memory Decoder 能夠有效地將各種 Qwen 和 Llama 模型適應于生物醫學、金融和法律專業領域，困惑度平均降低 6.17%。
架構
在預訓練階段，Memory Decoder 通過分布對齊損失函數，學習如何將其輸出分布與非參數檢索器生成的分布進行對齊。
在推理階段，Memory Decoder 與基礎語言模型并行處理輸入數據，通過插值其分布生成領域增強型預測結果，且無需額外的檢索開銷。

圖｜Memory Decoder 架構概覽，在預訓練階段學習模仿非參數檢索分布，在推理階段無縫集成任何兼容的語言模型，從而消除數據存儲維護和 kNN 搜索帶來的計算開銷。
與傳統基于單標簽目標的語言建模方法不同，kNN 分布通過捕捉領域內合理延續的多樣性，提供更豐富的監督信號。大量實驗驗證，混合目標函數能獲得最佳性能。這一研究方法的核心在于引入分布對齊損失函數，該函數通過最小化 Memory Decoder 輸出分布與緩存 kNN 分布之間的 KL 散度來實現。

圖｜跨領域適應方法的推理延遲比較
經過預訓練的 Memory Decoder 能夠通過簡單的插值操作，將任何語言模型與兼容的 tokenizer 適配到目標領域。
相比其他領域自適應技術，Memory Decoder 僅需對相對較小的 transformer 解碼器進行單次前向傳播，在推理效率上實現了顯著提升。Memory Decoder 與 LLM 之間的進程通信開銷可通過延長推理時間來分攤，而 kNN 搜索則會隨數據量線性增長。這種計算優勢結合 Memory Decoder 的“模型無關”設計，使其在對性能和效率都至關重要的生產環境中具有獨特價值。
性能評估
研究團隊評估了 Memory Decoder 在 6 種互補場景下的性能：
在 WikiText-103 數據集上的語言建模，驗證其在不同規模 GPT-2 模型中的適用性；
下游任務測試，驗證領域適應過程中通用能力的保留效果；
跨模型適應，展示單個 Memory Decoder 在 Qwen 模型（0.5B-72B）帶來的性能提升；
跨詞匯適應，證明不同 tokenizer 間的高效遷移能力；
知識密集型問答任務，證明 Memory Decoder 在保持推理能力的同時也可以增強事實回憶功能——這是傳統檢索方法的關鍵局限；
針對特定領域的下游任務，驗證其在 13 項真實場景基準測試中對上下文學習能力的保持。
具體如下：
1.WikiText-103中的語言建模

表｜GPT2 模型在 WikiText-103 數據集上的域適應方法的困惑度對比
上表展示了 Memory Decoder在所有 GPT2 模型尺寸上的有效性。僅需 1.24 億參數的單個 Memory Decoder，就能顯著提升整個 GPT2 系列模型的性能，展現了其即插即用的優勢——無論基礎模型規模如何。
即使在應用于更大規模的模型時，盡管 DAPT 由于采用全模型更新而具有固有優勢，Memory Decoder 依然保持著強勁的競爭力，且在不修改任何原始參數的情況下，能夠持續超越其他所有參數優化方法。
這些結果證明，小參數解碼器既能有效發揮非參數檢索的優勢，又能大幅降低計算開銷。
2.下游性能

表｜在情感分析、文本蘊含和文本分類等 9 種不同 NLP 任務上的性能表現
如上表，在零樣本評估環境中，Memory Decoder 在增強領域適應的同時保持通用語言功能的能力。與在多個任務中出現災難性遺忘的 DAPT 不同，Memory Decoder 在所有評估任務中，均能保持或提升性能。
這一方法在全部 9 項任務中均取得最高平均分。不僅超越了基礎模型、kNN-LM 和 LoRA，還在 CB、RTE 等文本蘊含任務中展現出獨特優勢。
這些結果驗證了這一架構的核心優勢：在保持原始模型參數完整的同時，Memory Decoder 通過融入領域知識，實現了無需犧牲通用能力的領域適應。
3.跨模型適應

表｜三個專業領域的跨模型適應結果
上表展示出 Memory Decoder 在不同模型規模和架構上的即插即用能力。單個Memory Decoder (0.5B 參數）在 Qwen2 和 Qwen2.5 系列的所有模型中均能持續提升性能。單一預訓練記憶組件可提升共享同一 tokenizer 的多個模型，實現高效的領域適應擴展，使得不同尺寸模型都能持續超越現有方法。
4.跨詞匯適應

表｜跨模型知識遷移效果顯著
上表展示了 Memory Decoder 在不同 tokenizer 和模型架構下的泛化能力。通過僅重新初始化基于 Qwen2.5 訓練的 Memory Decoder 的嵌入層和語言模型頭，團隊成功將其適配到 Llama 模型家族，且僅需原訓練預算的 10%。這種高效的遷移能力使所有 Llama 變體都實現了性能提升。
對于 Llama3-8B，Memory Decoder 在生物醫學和金融領域降低了約 50% 困惑度。類似的改進也延伸至 Llama3.1 和 Llama3.2，他們的方法在生物醫學和金融領域始終優于 LoRA，但在法律文本領域仍有改進空間。
這些發現表明，Memory Decoder 的通用性超越了單一 tokenizer 家族，證明了從單一架構中習得的領域知識可以高效遷移至其他架構，且僅需要少量額外訓練。這一能力擴展了我們方法的實際應用價值，為在多樣化的模型生態系統中實現領域適應提供了簡化的路徑。
5.知識密集型推理任務

表｜知識密集型問答任務的性能表現
雖然 RAG 方法在提升事實記憶方面表現出色，但在同時需要知識檢索與復雜推理的任務中卻常常表現較差。先前研究表明，盡管 kNN-LM 能從相關維基百科語料庫中檢索信息，但在知識密集型問答任務中反而可能影響性能表現。
如上表所示，Memory Decoder 在兩項基準測試中成功增強了模型獲取事實性知識的能力，同時保持了推理能力，解決了傳統檢索方法的根本性局限。
實驗結果表明，通過學習內化檢索模式而非依賴顯式推理，Memory Decoder 在保持處理復雜多跳問題所需組合推理能力的同時，還能充分利用擴展后的知識訪問優勢。
不足

以上結果證明，Memory Decoder 保留了檢索方法的記憶能力，又兼具參數化方法的高效性和泛化優勢。
Memory Decoder 的多功能性和高效性，使得它能無縫增強任何共享相同 tokenizer 的模型，且只需少量額外訓練即可適配不同 tokenizer 和架構的模型。這種能力使得跨模型家族的高效領域適應成為可能，大幅減少了專用模型開發通常所需的資源。
可以說，Memory Decoder開創了領域自適應的新范式，并從根本上重新定義了如何為特定領域定制語言模型。通過預訓練記憶組件將領域專業知識與模型架構解耦，這一方法構建了一個更模塊化、高效且易于訪問的框架，從而能夠提升語言模型在專業領域的表現。
然而，Memory Decoder也并非完美，依然存在一些局限性。
例如，在預訓練階段，Memory Decoder 需要通過 KV 數據存儲進行搜索，以獲取 kNN 分布作為訓練信號，這會產生計算開銷。盡管該成本僅在每個領域中產生一次，且可分攤至所有適應模型，但這仍是整個流程中的瓶頸。
此外，盡管跨 tokenizer 適應相比從頭訓練所需參數更新較少，但仍需進行部分參數調整以對齊嵌入空間，阻礙了真正「零樣本跨架構遷移」的實現。
作者：小瑜
如需轉載或投稿，請直接在公眾號內留言

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

上市15天，摩爾線程劍指英偉達腹地

朱光耀：中美AI實力對比，中國具備三項優勢

新型發電領域的“超級跑車”來了！發電效率提升的秘密藏在這里

盧偉冰公布小米17 Ultra手機首張樣片

藍色起源完成里程碑任務：殘障人士搭乘“新謝潑德”抵達太空邊緣

小米17 Ultra為何提前發布盧偉冰解釋原因

全站最新

上市15天，摩爾線程劍指英偉達腹地

朱光耀：中美AI實力對比，中國具備三項優勢

新型發電領域的“超級跑車”來了！發電效率提升的秘密藏在這里

盧偉冰公布小米17 Ultra手機首張樣片

熱門推薦

上市15天，摩爾線程劍指英偉達腹地

朱光耀：中美AI實力對比，中國具備三項優勢

新型發電領域的“超級跑車”來了！發電效率提升的秘密藏在這里

盧偉冰公布小米17 Ultra手機首張樣片

藍色起源完成里程碑任務：殘障人士搭乘“新謝潑德”抵達太空邊緣

小米17 Ultra為何提前發布盧偉冰解釋原因

車型確定了！定速巡航、剎車失靈司機：退車退款賠5萬

“討薪”成功，馬斯克成世界首位7000億美元富豪

華杉稱要把華與華做成世界第一，羅永浩：忽悠鄉鎮老板還可以

字節跳動全年500億美元利潤？知情人士回應

字節漲薪、騰訊「挖人」，阿里、百度、小米齊變陣

跟著蜜雪冰城賣啤酒的人，賺到錢了嗎？

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年