![]()
在推薦系統邁向多模態的今天,如何兼顧數據隱私與個性化圖文理解?悉尼科技大學龍國棟教授團隊聯合香港理工大學楊強教授、張成奇教授團隊,提出全新框架 FedVLR。該工作解決了聯邦環境下多模態融合的異質性難題,已被人工智能頂級會議 AAAI 2026 接收為 Oral Presentation。
在當今的推薦系統中,利用圖像和文本等多模態信息來輔助決策已是標配。然而,當這一需求遭遇聯邦學習—— 這一要求「數據不出本地」的隱私保護計算范式時,情況變得極其復雜。
現有的聯邦推薦往往面臨兩難:要么為了保護隱私而放棄繁重的多模態處理,僅使用 ID 特征;要么采用「一刀切」(One-size-fits-all)的粗暴融合策略,假設所有用戶對圖文的偏好一致。
但現實是殘酷的:用戶的「融合偏好」天生具有極大的異質性。購買服裝時,用戶可能更依賴視覺沖擊;而挑選數碼產品時,詳盡的參數文本可能才是關鍵。這種偏好的差異,在數據不可見的聯邦環境下,極難被捕捉。
為了打破這一瓶頸,悉尼科技大學龍國棟教授團隊,聯合香港理工大學人工智能高等研究院楊強院長、香港理工大學深圳研究院張成奇院長推出了 FedVLR 框架。其核心洞見在于重構了多模態融合的決策流:將重計算的特征預處理留給服務器,而將決定「怎么看」的融合決策權,通過輕量級路由機制徹底下放給用戶端側。
![]()
論文鏈接: https://arxiv.org/abs/2410.08478代碼倉庫: https://github.com/mtics/FedVLR
痛點:當「多模態」遇上「數據孤島」
在傳統的中心化訓練中,模型可以肆無忌憚地訪問所有交互數據,輕松學習到圖文融合的最佳權重。但在聯邦學習中,服務器看不見用戶的行為數據,也就無法得知:對于用戶 A 來說,到底是圖片重要還是文字重要?
這種「信息不對稱」導致了現有方法的局限性:
計算瓶頸:端側設備算力有限,難以運行龐大的視覺 - 語言模型(如 CLIP)。個性化缺失:全局統一的融合規則無法滿足用戶千差萬別的瀏覽習慣。
FedVLR 核心架構:服務器「備菜」,客戶端「掌勺」
![]()
FedVLR 創新性地提出了一種雙層融合機制,巧妙地解耦了特征提取與偏好融合。
第一層:服務器端的「多視圖預融合」—— 解決算力焦慮,提供豐富素材
FedVLR 將繁重的計算任務鎖定在服務器端。利用強大的預訓練視覺 - 語言模型,服務器不直接下發原始特征,而是通過多種預設的融合算子,將物品的圖像、文本和 ID 信息加工成一組「候選融合視圖集」。
可以把這理解為服務器預先準備了多種口味的「半成品」:
視圖 A:側重視覺表現視圖 B:側重文本描述視圖 C:圖文均衡
這些視圖包含了高質量的內容理解,卻無需消耗客戶端的算力來生成。
第二層:客戶端的「個性化精煉」——MoE 路由機制,實現千人千面
當這些「半成品」視圖下發到用戶設備(如手機)后,FedVLR 引入了一個極其輕量的本地混合專家模塊。
這個路由器的作用至關重要:它利用本地私有的交互歷史,動態計算出一組個性化權重。如果本地數據顯示用戶偏愛看圖,路由器就會賦予「視覺側重視圖」更高的權重。
這一過程完全在本地發生,確保了用戶的偏好數據從未離開設備。
工程優勢:即插即用的「增強包」
![]()
FedVLR 的設計哲學不僅僅是提出一個新模型,更是提供一種通用的增強方案。
它被設計為一個可插拔的層,具有極高的工程落地價值:
模型無關性:它可以無縫掛載到 FedAvg、FedNCF 等任何主流的基于 ID 的聯邦推薦框架上。零通信增量:通信過程中傳輸的依然是梯度或小模型參數,并未增加額外的帶寬負擔。隱私無損:嚴格遵循聯邦學習協議,個性化參數與原始數據均保留在本地。低端側開銷:復雜的 CLIP 編碼在云端完成,端側僅需運行輕量級的 MLP 路由網絡。
實驗驗證:稀疏數據下的「逆襲」
![]()
研究團隊在電商、多媒體等多個領域的公開數據集上進行了嚴苛的測試。
實驗結果表明:
全面提升:無論基線模型如何,掛載 FedVLR 后,NDCG 和 HR 等核心推薦指標均實現了顯著且穩定的提升。冷啟動友好:一個令人興奮的發現是,在數據稀疏的場景下,FedVLR 的性能提升尤為驚人。這證明了通過個性化融合策略,模型能更有效地利用有限的本地數據來理解物品內容,甚至在部分指標上逼近了中心化訓練的效果。
總結
FedVLR 的價值不僅限于推薦系統本身,它更為聯邦基礎模型的落地提供了一種極具啟發性的范式。
在端側算力受限、而云端大模型能力日益增強的背景下,如何在不傳輸原始數據的前提下,讓邊緣設備低成本地享受到大模型的通用知識,是業界亟待解決的難題。
FedVLR 實際上展示了一種「云端大模型編碼 + 端側微調適配」的高效協同路徑。它證明了我們無需在每個終端都部署龐大的多模態模型,只需通過精巧的架構設計,將云端的通用內容理解能力與端側的私有偏好解耦。
這種思路極大地降低了聯邦學習的通信與計算門檻,為未來將更復雜的視覺 - 語言模型甚至生成式 AI 引入隱私敏感場景鋪平了道路,是構建下一代「既懂內容、又懂用戶、且嚴守隱私邊界」的智能系統的關鍵一步。
目前,該論文代碼已開源,歡迎社區關注與試用。
作者介紹
李志偉,悉尼科技大學博士生,研究方向為聯邦推薦系統。
龍國棟、江靜,悉尼科技大學副教授,專注于聯邦學習。
張成奇,香港理工大學深圳研究院院長,在數據挖掘、人工智能理論與應用方面具有廣泛影響力。
楊強,香港理工大學人工智能高等研究院院長、國際人工智能領域領軍人物,提出遷移學習與聯邦學習多項奠基性成果。





京公網安備 11011402013531號