![]()
機器之心發(fā)布
機器之心編輯部
在機器人和具身智能領(lǐng)域,transformer 模型正變大越來越通用,同時也越來越 「重」。我們在渴望 SOTA 精度,但現(xiàn)實世界的邊緣設(shè)備 (如機器人端場景) 卻無法承受其高昂的計算和延遲。
![]()
論文地址:https://arxiv.org/pdf/2511.15580v3
「Efficient AI」的核心挑戰(zhàn)之一是:模型是否真的需要處理所有輸入數(shù)據(jù)
由東南大學、中南大學、明略科技(2718.HK)聯(lián)合提出的一篇被 AAAI 2026 接收為 Oral 的論文 CompTrack 給出了一個深刻的答案。這項工作展示了壓縮技術(shù)如何大幅降低計算開銷,同時保持或甚至提升模型性能,以 3D 點云跟蹤作為一個引人注目的應(yīng)用案例。
具體而言,該工作一針見血地指出,當前 AI 模型(尤其在處理稀疏數(shù)據(jù)如點云時)普遍面臨「雙重冗余」(Dual-Redundancy)挑戰(zhàn):
![]()
空間冗余 (Spatial Redundancy):海量的、無關(guān)的背景點和空白區(qū)域(如天空、遠處的建筑物)被送入網(wǎng)絡(luò),這不僅浪費算力,更污染了特征,導(dǎo)致精度下降。信息冗余 (Informational Redundancy)這一點更為致命且常被忽視。即便是在我們真正關(guān)心的「前景目標」上,也充斥著大量重復(fù)和低價值的信息。例如,在識別一輛車時,車輛引擎蓋上的 100 個點和 500 個點提供的有效幾何信息幾乎是等價的;而車輪、邊角等關(guān)鍵點的價值則遠高于這些平坦表面。
![]()
現(xiàn)有方法大多只處理了問題 1(過濾背景),卻對問題 2(壓縮前景)束手無策。CompTrack 創(chuàng)新性地提出了一個端到端框架,從根本上同時解決這兩種冗余
核心洞察(一):用「信息熵」過濾空間冗余
針對空間冗余,CompTrack 采用了一個空間前景預(yù)測器 (SFP)。SFP 是一個輕量級模塊,它基于信息熵理論,通過一個高斯熱圖監(jiān)督學習,精準地「篩除」那些信息含量極低、對任務(wù)無益的背景噪聲。這一步為后續(xù)的精準壓縮奠定了堅實基礎(chǔ)。
![]()
核心洞察(二):用「信息瓶頸」動態(tài)壓縮信息冗余
這篇工作最核心的貢獻,是其信息瓶頸引導(dǎo)的動態(tài)令牌壓縮 (IB-DTC)模塊,它專為解決「前景信息冗余」而設(shè)計。
![]()
為什么這個模塊是 Efficient AI 的一次重要探索?
1. 理論完備,告別盲目壓縮:該模塊的構(gòu)建基于堅實的「信息瓶頸 (IB)」原理。其目標非常明確:只保留那些對最終預(yù)測(如目標運動)有價值的信息,并丟棄所有不相關(guān)的冗余信息。它進一步證明,這種信息冗余在數(shù)學上等價于特征矩陣的 「低秩 (Low-Rank)」特性。
2. SVD 指導(dǎo),實現(xiàn)「動態(tài)」壓縮:IB-DTC 最精妙的設(shè)計在于其動態(tài)性。它沒有使用一個固定的、「一刀切」的壓縮率,而是利用在線奇異值分解 (SVD),在推理時(on-the-fly)實時分析當前輸入前景數(shù)據(jù)的「內(nèi)在秩 (intrinsic rank)」。這意味著:
如果前景簡單(如一輛側(cè)面的卡車),模型自動使用高壓縮率。如果前景復(fù)雜(如一個騎行者),模型自動使用低壓縮率。這種數(shù)據(jù)依賴的動態(tài)壓縮,在保留關(guān)鍵信息的同時,最大化了計算效率。
3. 繞過 SVD,實現(xiàn)「端到端」訓(xùn)練:SVD 本身是不可微分的,無法直接用于訓(xùn)練。CompTrack 巧妙地將其用作一個「引導(dǎo)者」:SVD 只負責在前向傳播時提供最優(yōu)的壓縮率 K 和特征基(prior),而真正的壓縮則由一個可學習的、基于 K 的 Cross-Attention 模塊完成 。這使得整個高效壓縮流程可以端到端訓(xùn)練。
應(yīng)用成效:更少算力,更高精度!
CompTrack 將該框架應(yīng)用于極具挑戰(zhàn)性的 3D 點云跟蹤任務(wù)。結(jié)果證明,這種對「信息冗余」的系統(tǒng)性壓縮是極其高效的:
速度:在 RTX 3090 上達到80 FPS的實時性能,相比 SOTA 方法 (P2P) 65 FPS 的速度,實現(xiàn)了 1.3 倍的加速效率:計算量(FLOPs)顯著降低,僅為0.94G。消融實驗證實,IB-DTC 模塊是實現(xiàn)效率飛躍(從 48 FPS 提升至 75 FPS)的核心。精度:在實現(xiàn)極致效率的同時,CompTrack 在 nuScenes 和 Waymo 兩個大規(guī)模數(shù)據(jù)集上均刷新了 SOTA(State-of-the-art)性能
CompTrack 的意義遠不止于 3D 跟蹤。它提供了一個「理論指導(dǎo)、動態(tài)自適應(yīng)、端到端」的通用信息壓縮范式。
該工作證明了,與其盲目地讓 Transformer 處理所有數(shù)據(jù),不如先問一個更基本的問題:「哪些信息是真正有價值的?」。CompTrack 的技術(shù)預(yù)示著高效 AI 的更廣泛范式轉(zhuǎn)變。其動態(tài)、SVD 引導(dǎo)的壓縮易于適應(yīng)其他涉及稀疏或冗余數(shù)據(jù)的領(lǐng)域,如機器人中的傳感器融合,甚至視覺 - 語言模型中的多模態(tài)處理。通過優(yōu)先考慮信息效率而非蠻力計算,CompTrack 也為后續(xù)解決視頻理解、多模態(tài)融合乃至大模型推理中的信息冗余問題,提供了極具前景的新思路。
這正是 Efficient AI 未來的發(fā)展方向:不做無效計算,只為價值付費





京公網(wǎng)安備 11011402013531號