![]()
隨著大語言模型的快速進(jìn)步,為了適應(yīng)越來越多樣的工作場景,模型越來越多在指定場景進(jìn)行針對性訓(xùn)練,例如代碼、數(shù)學(xué)計(jì)算、視覺理解、邊緣計(jì)算等。而在面對復(fù)雜任務(wù)與特定場景時(shí),通過多智能體進(jìn)行探索、決策、信息交換,可以實(shí)現(xiàn)相比單智能體更好的綜合表現(xiàn)。
在多智能體系統(tǒng)中,現(xiàn)有的智能體多以 Text to Text(T2T)方式進(jìn)行交流,即通過生成交流文本進(jìn)行智能體之間的信息傳遞,而這種方式則會帶來信息丟失(多維語義被壓縮到一維文字)、語義模糊[3][4]、巨大延遲(逐個(gè) token 生成)三大問題。基于此來自清華大學(xué)、無問芯穹、香港中文大學(xué)、上海人工智能實(shí)驗(yàn)室和上海交通大學(xué)的研究團(tuán)隊(duì)在論文中創(chuàng)新提出了 Cache to Cache(C2C)方式的信息傳遞,將模型的 KV-Cache 作為傳播媒介,實(shí)現(xiàn)了直接的「腦對腦」交流,相比 T2T 的對話交流實(shí)現(xiàn)了 3%-5% 的正確率提升以及平均兩倍的速度提升,為多智能體系統(tǒng)提供了一種全新的通信范式。
論文的核心貢獻(xiàn)在于:
驗(yàn)證了超越文本的模型間通信的可行性提出了以 KV-Cache 作為媒介進(jìn)行通信的方案 - C2C為多智能體通信提供了新的技術(shù)基礎(chǔ)
![]()
a) T2T 通過顯式文本生成傳遞信息 b) C2C 直接將不同模型的 KV-Cache 進(jìn)行投影與融合
本工作現(xiàn)已開源,討論。
![]()
代碼鏈接:https://github.com/thu-nics/C2C主頁鏈接:https://github.com/thu-nics論文鏈接: https://arxiv.org/pdf/2510.03215
背景:現(xiàn)有文本通信的局限性
在面對復(fù)雜任務(wù)與特定場景時(shí),多智能體系統(tǒng)能夠展現(xiàn)出超越單智能體的顯著優(yōu)勢。然而,現(xiàn)有的 Text to Text(T2T)極大地限制了模型間的信息交流,尤其是在傳遞具有豐富語義的上下文時(shí),產(chǎn)生了以下三大問題:
1.信息丟失:作為低帶寬的傳播媒介,在將信息壓縮為一維文本序列并輸出時(shí),很容易造成高維語義降維時(shí)的信息丟失。
2.語義模糊:自然語言本身包含的模糊表達(dá),盡管 MCP 等智能體交流協(xié)議希望可以標(biāo)準(zhǔn)化文本信息 [3][4],但是固定的模版依舊難以滿足靈活、開放的協(xié)作場景。
3.巨大延遲:T2T 傳遞采取逐個(gè) token 輸出,極大地限制了通信速度。
![]()
核心洞見:KV-Cache 的獨(dú)特優(yōu)勢
KV-Cache 天然包含模型對話過程中的多維語義信息,無需額外二次處理。通過預(yù)實(shí)驗(yàn),我們發(fā)現(xiàn):
1. 在相同文本長度下,優(yōu)化后的 KV-Cache 能夠顯著提升模型的準(zhǔn)確率;
2. 不同模型之間的 KV-Cache 可以進(jìn)行相互轉(zhuǎn)換與傳遞,具備良好的通用性;
3. 不同模型針對相同上下文會生成各自獨(dú)特的 KV-Cache 表示,體現(xiàn)了模型間能力的互補(bǔ)性。
此外,KV-Cache 在并行處理方面具有天然優(yōu)勢,能夠精準(zhǔn)彌補(bǔ)現(xiàn)有 T2T(Text-to-Text)方式的不足。例如,KV-Cache 可通過投影對不同詞元實(shí)現(xiàn)完全并行的信息交流,有效避免低效的一維文本輸出流程。
基于上述優(yōu)勢,我們團(tuán)隊(duì)探索了以KV-Cache為媒介的模型通信方式。實(shí)驗(yàn)表明,KV-Cache 不僅拓展了模型間交流的表達(dá)空間,還顯著提升了效率和可擴(kuò)展性。
![]()
源模型、目標(biāo)模型以及轉(zhuǎn)換后KV-Cache的t-SNE圖
![]()
KV-Cache 優(yōu)化實(shí)驗(yàn)
深入解析:C2C 直接語義通信的實(shí)現(xiàn)路徑
1. Sharer 與 Receiver
團(tuán)隊(duì)將提供額外上下文理解的模型定義為 Sharer(分享者),而負(fù)責(zé)接收完整上下文并結(jié)合這些理解生成回復(fù)的模型定義為 Receiver(接收者)。
![]()
2. 核心機(jī)制:C2C-Fuser
C2C 的核心在于 KV-Cache 的融合。為此,我們設(shè)計(jì)了融合器 F 以及層映射策略 G。
在 prefill 階段,第 n 層的融合器 F (n) 會用 Receiver 的第 n 層 KV 和 Sharer 的第 G (n) 層 KV 進(jìn)行融合,生成新的 KV 表示。在 解碼階段,模型則利用融合后的 KV-Cache 和當(dāng)前前綴,進(jìn)行自回歸生成,實(shí)現(xiàn)信息的有效利用。
![]()
3. 融合器設(shè)計(jì):殘差式信息注入
為防止融合過程破壞 Receiver 原有語義,F(xiàn)user 采用殘差融合結(jié)構(gòu),分為投影層、動態(tài)權(quán)重層和可學(xué)習(xí)門控三部分。
投影層:將兩側(cè) KV 在頭 / 通道維度拼接,通過線性投影與特征融合映射到統(tǒng)一表征空間;實(shí)現(xiàn)初步的信息整合;動態(tài)權(quán)重層:用輸入感知的 head-modulation 對投影后的各注意力頭 / 通道做自適應(yīng)加權(quán);促使模型可以判斷:在何時(shí)應(yīng)當(dāng)保留 Receiver 的輸入,何時(shí)應(yīng)當(dāng)增強(qiáng) Sharer 的引導(dǎo);可學(xué)習(xí)門控:每層有可訓(xùn)練門控,使用帶溫度退火的 Gumbel-sigmoid,從開始訓(xùn)練時(shí)的可微加權(quán)平滑過渡到推理時(shí)的 0/1 決策。最終以殘差形式與 Receiver 原 KV 相加,保留原始表征;保證了訓(xùn)練的有效性以及 Receiver 輸出的穩(wěn)定性。
這樣可以自適應(yīng)地將 Sharer 的信息以殘差方式注入 Receiver,實(shí)現(xiàn)更有效的信息整合與傳遞。
4. 模型對齊:跨模型、跨層級的映射
為保證不同模型(系列、尺寸)之間 KV 表示的兼容性,C2C 引入模型對齊機(jī)制。
Token 對齊:將 Receiver 的每個(gè) token 解碼為字符串,再用 Sharer 的分詞器重新編碼;遇到一對多映射時(shí),選取覆蓋字符串最長的 Sharer token 以最大限度保障信息精準(zhǔn)傳遞。Layer 對齊(也即層映射策略):采用「末端對齊」策略 —— 先對齊兩模型的最頂層,然后按逆序逐層對齊直到較淺模型的第一層,優(yōu)先保障深層語義的融合傳輸。
5. 訓(xùn)練框架:專注于 C2C Fuser 模塊
在訓(xùn)練過程中,團(tuán)隊(duì)凍結(jié) Sharer 和 Receiver 的參數(shù),僅訓(xùn)練 C2C 融合器模塊,采用類似 SFT 的 next token prediction 損失。訓(xùn)練流程包括前向傳播、KV-Cache 融合,以及最終的監(jiān)督學(xué)習(xí)與傳播,確保 C2C 能穩(wěn)定高效地實(shí)現(xiàn)模型間的信息傳遞。
結(jié)果與分析:C2C 的性能與效率優(yōu)勢
訓(xùn)練數(shù)據(jù):OpenHermes2.5 [14]
為確保泛化能力,團(tuán)隊(duì)在通用微調(diào)語料庫 OpenHermes2.5 [14] 中選取前 50 萬個(gè)樣本來訓(xùn)練 C2C Fusers。
模型組合:
涵蓋不同系列(Qwen2.5 [5]、Qwen3 [6]、Llama3.2 [7]、Gemma3 [8] )、不同規(guī)模(0.6B~14B)、不同專業(yè)領(lǐng)域(通用、代碼、數(shù)學(xué))以及不同訓(xùn)練階段(預(yù)訓(xùn)練、指令微調(diào))模型。例如,用 Qwen2.5-Math 作為 Sharer,Qwen3-0.6B 作為 Receiver,測試學(xué)科知識傳遞。
基線方法:
T2T:Sharer 生成解析文本,Receiver 接收解析文本以及原問題后進(jìn)行回答query-level routing:根據(jù)問題難度動態(tài)選擇 Sharer 或 Receiver 回答單模型:Sharer 和 Receiver 分別單獨(dú)回答
評測基準(zhǔn):
OpenBookQA [9]:考察模型對科學(xué)常識和開放性知識推理能力MMLU-Redux [10]:考察多領(lǐng)域、多任務(wù)的專業(yè)知識理解與綜合能力ARC-C [11]:考察復(fù)雜科學(xué)推理任務(wù)C-eval [12]:考察模型在中文環(huán)境下的多學(xué)科知識與應(yīng)用能力
整體表現(xiàn)
![]()
在主要評測基準(zhǔn)上的測試結(jié)果,使用Qwen-0.6B作為Receiver
如表所示,C2C 在不同設(shè)置和基準(zhǔn)上持續(xù)提升了 Receiver 的性能。
準(zhǔn)確性提升:顯著超越個(gè)體與文本通信:
針對三種不同的 Sharer,分別觀察到 C2C 相比單個(gè) Sharer 平均準(zhǔn)確率提升 11.00%、9.64% 和 11.88%。與 T2T 相比,C2C 的平均準(zhǔn)確率分別額外提升了 5.36%、4.15% 和 3.06%。
效率增益:延遲大幅降低:
由于省去了中間文本消息的生成,相比 T2T,C2C 在推理時(shí)間上分別實(shí)現(xiàn)了約 3.46×、1.51× 和 14.41× 的加速。相較之下,query-level routing 更側(cè)重效率,但其準(zhǔn)確率一般不超過兩個(gè)原始模型中的較好者。
值得注意的是,當(dāng)使用 Qwen3-4B base 作為 Sharer 時(shí),該模型生成的文本有時(shí)會忽視指令并超出預(yù)期長度,導(dǎo)致文本到文本通信時(shí)間顯著增長,而 C2C 能繞過該問題。這一設(shè)置展示了一個(gè)有趣的用例:即使是弱的 SFT 模型,也能幫助強(qiáng)大的預(yù)訓(xùn)練基礎(chǔ)模型更好地遵循指令。
泛化實(shí)驗(yàn)
分別在規(guī)模擴(kuò)展、序列長度擴(kuò)展與不同模型組合三個(gè)層面上進(jìn)行泛化實(shí)驗(yàn),結(jié)果說明 C2C 在三個(gè)層面上均能有效泛化,具體實(shí)驗(yàn)結(jié)果詳見正文部分。
消融實(shí)驗(yàn)
![]()
Single 表示在沒有 Sharer 的情況下對 Receiver 進(jìn)行標(biāo)準(zhǔn)的完整微調(diào);Identical 表示 Sharer 與 Receiver 均為 Qwen3-0.6B 的 C2C 配置。
實(shí)驗(yàn)結(jié)果說明 C2C 的改進(jìn)并非單純來源于增大的可訓(xùn)練參數(shù)量或?qū)τ?xùn)練集的過擬合,而是來自異構(gòu) Sharer 提供的互補(bǔ)性上下文理解。即便是 Identical 相較于 Single 也有提升,表明 Cache 級別的自我通信(cache-level self-communication)能提供有益的輔助表征,這與在隱空間推理和循環(huán) Transformer 中觀察到的效應(yīng)一致 [15][16]。
未來展望
Cache to Cache 及其思想的應(yīng)用前景十分廣泛,可能的場景包括:
1. 多智能體系統(tǒng)中實(shí)現(xiàn)協(xié)作效率與效果的大幅提高。例如在一些多智能體系統(tǒng)的應(yīng)用中,可以進(jìn)一步提升智能體系統(tǒng)響應(yīng)與處理速度,適配當(dāng)前快節(jié)奏、多需求的 AI 訓(xùn)練浪潮。
2. 多模態(tài)的便捷融合。借助 C2C 可以對齊并融合語言模型、視覺 - 語言模型(VLM)及視覺 - 語言 - 動作(VLA)策略的緩存,使視覺與語言上下文共同驅(qū)動更精確的理解與決策執(zhí)行。
3. 與推理加速方法整合。將 C2C 用于增強(qiáng)推測解碼(speculative decoding)、 token 級路由等方法中小模型的表現(xiàn),進(jìn)一步降低延遲與推理成本。
4. 隱私感知的云 — 邊協(xié)作。云端模型將經(jīng)挑選的 KV-Cache 段傳輸?shù)竭叾四P停栽诓槐┞对嘉谋镜那疤嵯绿嵘叾四芰Γ瑴p少帶寬并降低數(shù)據(jù)泄露風(fēng)險(xiǎn)。
5. 高維語義空間的協(xié)作與推理。與隱空間推理結(jié)合后可以實(shí)現(xiàn)完全在高維語義空間的模型推理與溝通協(xié)作,有望進(jìn)一步提升系統(tǒng)工作效率,減少計(jì)算開銷。
本文提出的 Cache-to-Cache(C2C)范式,成功實(shí)現(xiàn)了大模型間高效、通用的直接語義通信。其在性能、效率與泛化性上的優(yōu)異表現(xiàn)也讓我們期待,在智能體時(shí)代,C2C 有潛力成為構(gòu)建新一代多智能體系統(tǒng)的關(guān)鍵使能技術(shù)之一,推動其交流方式從低效的文本中轉(zhuǎn)邁向高效的「思想同步」。
參考文獻(xiàn)
[1]: Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V Chawla, Olaf Wiest, and Xiangliang Zhang. Large language model based multi-agents: A survey of progress and challenges. arXiv preprint arXiv:2402.01680, 2024.
[2]: Khanh-Tung Tran, Dung Dao, Minh-Duong Nguyen, Quoc-Viet Pham, Barry O’Sullivan, and Hoang D Nguyen. Multi-agent collaboration mechanisms: A survey of llms. arXiv preprint arXiv:2501.06322, 2025
[3]: Anthropic. Introducing the model context protocol. Online; Nov. 25, 2024, 2024. URL https: //www.anthropic.com/news/model-context-protocol. Accessed: 2025-09-08.
[4]: Rao Surapaneni, Miku Jha, Michael Vakoc, and Todd Segal. Announcing the agent2agent protocol (a2a). Google Developers Blog, April 2025. URL https://developers.googleblog. com/en/a2a-a-new-era-of-agent-interoperability/. Accessed: 2025-09-08.
[5]: An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jian hong Tu, Jingren Zhou, Junyang Lin, et al. Qwen2. 5-math technical report: Toward mathematical expert model via self-improvement. arXiv preprint arXiv:2409.12122, 2024a.
[6]: An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025a.
[7]: Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv e-prints, pp. arXiv–2407, 2024.
[8]: Gemma Team, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ram′ e, Morgane Rivi` ere, et al. Gemma 3 technical report. arXiv preprint arXiv:2503.19786, 2025.
[9]: Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct elec tricity? a new dataset for open book question answering. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp. 2381–2391, 2018.
[10]: Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, et al. Are we done with mmlu? InProceedings of the 2025 Conference of the Nations of the Amer icas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pp. 5069–5096, 2025.
[11]: Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018.
[12]: Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Yao Fu, et al. C-eval: A multi-level multi-discipline chinese eval uation suite for foundation models. Advances in Neural Information Processing Systems, 36: 62991–63010, 2023.
[13]: Isaac Ong, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E Gonzalez, MWaleed Kadous, and Ion Stoica. Routellm: Learning to route llms with preference data. arXiv preprint arXiv:2406.18665, 2024.
[14]: Teknium. Openhermes 2.5: An open dataset of synthetic data for generalist llm assistants, 2023. URLhttps://huggingface.co/datasets/teknium/OpenHermes-2.5.
[15]: Boyi Zeng, Shixiang Song, Siyuan Huang, Yixuan Wang, He Li, Ziwei He, Xinbing Wang, Zhiyu Li, and Zhouhan Lin. Pretraining language models to ponder in continuous space. arXiv preprint arXiv:2505.20674, 2025.
[16]: Nikunj Saunshi, Nishanth Dikkala, Zhiyuan Li, Sanjiv Kumar, and Sashank J Reddi. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.





京公網(wǎng)安備 11011402013531號