![]()
本工作由紐約大學 NYU SAI Lab 的碩士生王宇彤與博士生王海宇合作完成。本文的通訊作者為張賽騫,他是紐約大學(New York University)計算機科學系助理教授、SAI Lab 負責人,其研究方向涵蓋多模態大模型(Vision-Language Models)壓縮與加速、低比特量化、高效推理以及可信智能系統。
在多模態智能浪潮中,視覺語言模型(Vision-Language Models, VLM)已成為連接視覺理解與語言生成的核心引擎。從圖像描述、視覺問答到 AI 教育和交互系統,它們讓機器能夠「看懂世界、說人話」。
然而,強大的性能也帶來了沉重的代價——模型動輒上百億參數,顯存和計算壓力巨大。以 LLaVA-13B 為例,推理時 Key-Value 緩存(KV cache)體積極大,速度慢、資源耗盡,這讓多模態/大模型的「落地」之路異常艱難。
面對這一瓶頸,來自紐約大學的研究團隊 SAI Lab 在 NeurIPS 2025 上提出了一項突破性工作——QSVD(Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models)。它通過「聯合低秩分解 + 量化」的創新策略,為多模態模型找到了一條「輕量化而不減智」的新路徑。
![]()
論文標題:QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models論文地址:https://arxiv.org/abs/2510.16292Github:https://github.com/SAI-Lab-NYU/QSVD
讓多模態模型「減負」:
從 Key-Value 緩存出發
視覺語言模型的強大來自 Transformer 中的注意力機制,但這也帶來巨大的 KV 緩存壓力。現有方案如 Grouped-Query Attention、Multi-Query Attention、DeepSeek 的 MLA 等雖能降低計算開銷,卻要么精度受損,要么需要重新訓練。
QSVD 的目標很明確:不改架構、不重新訓練,只通過數學壓縮就讓模型更輕、更快、更穩。
核心思想:
聯合 QKV 奇異值分解(Joint SVD over QKV)
傳統做法是分別對 Q、K、V 矩陣進行奇異值分解(SVD),而 QSVD 首創聯合分解(Joint SVD)
![]()
![]()
![]()
這帶來三大優勢:
計算更少:降維乘法減少矩陣乘法;顯存更省:只緩存一個中間表示,KV 緩存量減半;表示更穩:聯合分解保持 Q/K/V 之間的語義耦合,不損失信息。
自適應秩分配:
讓壓縮更聰明
QSVD 進一步提出跨層秩分配策略(Cross-layer Rank Allocation)。不同層的重要性不同,不能「一刀切」地壓縮。研究者通過梯度近似計算每個奇異值對模型損失的影響,得到重要性評分,并在全模型范圍內排序與截斷。
![]()
這樣,模型可以智能決定「該減多少秩、留多少精度」,實現全局最優的壓縮配置。
低比特量化 + 異常值平滑
僅靠低秩近似還不夠。為了進一步提升硬件效率,QSVD 結合了后訓練量化(PTQ)與異常值平滑(Outlier Smoothing)。
![]()
![]()
![]()
實驗結果:
更輕、更快、更準
研究團隊在 LLaVA-v1.5(7B/13B)、LLaVA-Next 和 SmolVLM 等模型上進行了系統評估,結果令人驚喜:
FP16 比 ASVD 與 SVD-LLM 精度高 10% 以上;W8A8(8 位量化)下幾乎無精度損失,W4A4 極低比特條件下依然穩定工作推理速度最高提升 13 倍。
這些結果說明,QSVD 不僅壓縮模型,還讓模型更「聰明」。
技術總結:
三步實現高效多模態推理
Joint SVD over QKV
拼接 Q/K/V 矩陣,統一做低秩分解;
Cross-layer Rank Allocation
按重要性分配秩,全局最優壓縮;
Quantization with Outlier Smoothing
旋轉量化 + 可學習奇異值分配,抑制異常值。
三步即可打造出低顯存、高精度、快速響應的多模態大模型。
結語
在這項工作中,我們提出了QSVD—— 一個將奇異值分解(SVD)與量化(Quantization)結合的統一框架,用于高效壓縮視覺語言模型(VLM)。通過對 Q、K、V 權重矩陣的聯合分解,并引入跨層自適應秩分配策略,QSVD 在幾乎不損失精度的前提下,顯著降低了計算開銷、KV 緩存規模與模型存儲成本。
雖然量化操作應用于整個模型,但壓縮的核心集中在自注意力層(Self-Attention Layers)的 QKV 權重上,這正是影響推理效率的關鍵環節。未來,我們計劃將優化范圍擴展至跨模塊聯合壓縮與自適應優化,進一步推動多模態模型的系統級輕量化。
值得注意的是,提高模型效率也意味著更強的可部署性與普惠性。當更強大的模型能夠被更廣泛地使用時,它們將有潛力加速教育、醫療、創意與人機交互的發展——但同時也可能帶來監控、隱私與虛假信息傳播等風險。如何在開放與安全之間取得平衡,是下一階段研究必須正視的問題。
論文與代碼均已公開,歡迎感興趣的同學閱讀、復現以及深入討論。





京公網安備 11011402013531號