![]()
該論文的第一作者和通訊作者均來自北京大學王選計算機研究所,第一作者為博士生徐鑄,通訊作者為博士生導師劉洋。團隊近年來在 TPAMI、IJCV、CVPR、ICML 等頂會上有多項代表性成果發表,多次榮獲國內外多模態理解預生成競賽冠軍,和國內外知名高校、科研機構廣泛開展合作。
本文主要介紹來自該團隊的最新論文:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring。該任務針對弱監督動態場景圖任務展開研究,發現目前的性能瓶頸在場景中目標檢測的質量,因為外部預訓練的目標檢測器在需要考慮關系信息和時序上下文的場景圖視頻數據上檢測結果欠佳。
本文針對該問題提出了一種時序增強關系敏感知識遷移的方法,通過獲取關系和時序信息感知的注意力圖來優化外部目標檢測器的檢測結果,從而提升在場景圖數據上目標檢測質量,進而提升最終的生成場景圖效果。
目前該研究已被 ICCV 2025 正式接收,相關代碼與模型已全部開源。
![]()
論文標題:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring論文鏈接:https://arxiv.org/abs/2508.04943代碼鏈接:https://github.com/XZPKU/TRKT.git項目主頁:https://sites.google.com/view/trkt-official
動態場景圖生成任務旨在通過檢測物體并預測它們之間的關系,為視頻的每一幀生成對應場景圖。 弱監督動態場景圖生成要求模型在訓練階段只使用來自視頻單幀的無物體位置信息的場景圖標簽作為監督進行訓練,從而減少標注工作量。現有的弱監督動態場景圖生成方法依賴于預訓練的外部目標檢測器生成物體標簽,進而構造偽場景圖標簽用于后續場景圖生成模型的訓練。
然而,在動態、關系感知的動態場景圖生成場景中,訓練于靜態、以物體為中心圖像上的目標檢測器可能出現物體定位不準確以及對部分物體置信度過低,從而導致物體漏檢的問題。本文通過分析目標檢測結果和關系預測結果對最終場景圖質量的影響(如下圖 1 所示),可以發現目標檢測質量是目前弱監督動態場景圖生成任務的主要瓶頸。
![]()
圖 1:使用不同目標檢測結果和關系預測結果的動態場景圖性能對比
針對上述問題,該論文提出了一種時序增強且關系敏感的知識遷移方法 TRKT,該方法能夠有效增強在關系感知的動態場景中的目標檢測性能。
具體來講,TRKT 首先通過物體和關系類別解碼器生成類別特定的注意力圖,以突出物體區域和交互區域,從而使注意力圖具備關系感知能力,同時利用鄰近幀和光流信息對注意力圖進行時序增強,使它們具備運動感知能力,并對運動模糊具有較強的魯棒性。進一步,TRKT 還設計了一個雙流融合模塊,綜合利用類別特定的注意力圖與外部檢測結果,提升物體定位精度和部分物體的置信度分數。實驗表明,TRKT 通過提升目標檢測性能為弱監督動態場景圖生成的訓練提供了更準確和更高質量的偽標簽,進而提升最終動態場景圖的生成質量。
一、方法介紹
![]()
圖 2:基于時序增強關系敏感知識遷移的弱監督動態場景圖生成方法框架圖
本文方法如圖 2 所示,它主要由兩個設計組成:關系敏感的知識挖掘(Relation-aware Knowledge Mining)和雙流融合模塊(Dual-stream Fusion Module)。在關系敏感的知識挖掘中,我們利用圖像編碼器將每幀輸入圖像處理成若干塊,然后分別通過物體和關系類別解碼器對這些塊進行解碼,生成注意力圖,用于高亮物體及其交互關系的相關區域。編碼器和解碼器僅通過圖像的物體和關系類別標簽進行監督。這些注意力圖包含物體語義和潛在的關系上下文,從而增強了模型在數據中識別和理解復雜關系的能力。進一步地,跨幀的光流被用來提供時序信息以進一步增強注意力圖。通過這些方法,我們獲得既具備關系感知又具備運動感知的注意力圖,包含時序增強和關系敏感的知識。在雙流融合模塊中,我們設計了并行的定位優化模塊(Localization Refinement Module,LRM)和置信度提升模塊(Confidence Boosting Module,CBM)用于最大化注意力圖在增強外部檢測結果中的效果。LRM 通過利用注意力圖來定位物體區域,從而提供外部檢測的邊界框坐標的準確度;CBM 則增強由類別解碼器識別的物體類別的置信度分數。關系敏感的知識挖掘和雙流融合模塊有效地減輕了外部檢測結果中存在的偏差,最終產生了更可靠的物體檢測結果。最后我們使用和基線模型相同的方法,將檢測結果組織為場景圖偽標簽,以全監督的方式訓練動態場景圖檢測模型。
關系敏感的知識挖掘
![]()
![]()
![]()
![]()
![]()
雙流融合模塊
雙流融合模塊(DFM)用于結合時序感知且關系敏感的知識,來提升外部檢測器的結果質量。DFM 包含了定位修正模塊和置信度提升模塊。
![]()
圖 3:定位修正模塊示意圖
![]()
![]()
![]()
圖 4:置信度提升模塊示意圖
![]()
![]()
![]()
二、實驗結果
①對比方法
我們對比了兩大類方法,第一類是已有最優的弱監督動態場景圖生成方法,包括 PLA [1] 和 NL-VSGG;第二類是擅長關系理解的視覺語言模型,包括 RLIP 和 RLIPv2 [4]。
②評價指標
評價指標分為兩部分,第一部分是測評方法在 DSGG 數據中的目標檢測性能,指標為 Average Precision (AP) 和 Average Recall (AR);第二部分是測評方法在動態場景圖生成任務上的性能,我們通過場景圖檢測(SGDET)任務進行評估。SGDET 旨在檢測物體對并預測它們之間的關系,并以 Recall@K 為指標進行評估。
③與現有方法的對比及分析
![]()
表 1:與基線模型在 Action Genome [3] 數據集上目標檢測性能對比實驗結果
![]()
表 2:與對比方法在 Action Genome [3] 數據集上動態場景圖生成性能對比實驗結果
我們首先對比了目標檢測的性能,結果如表 1 所示。我們提出的方法在 Average Precision 和 Average Recall 上分別提高了 13.0%/1.3%,驗證了我們的方法能夠有效提升動態和需要關系理解場景下的目標檢測性能。
對于弱監督動態場景圖生成任務,性能對比如表 2 所示。和我們的基線模型 PLA 相比,結果顯示,我們在所有評估指標上都取得了性能提升(1.72%/2.42%),這表明,通過改進物體檢測結果,生成的偽場景圖標簽質量得到了提高,從而在最終的 DSGG 性能上獲得了性能提升。此外,我們還與 NL-VSGG 進行了比較,NL-VSGG 使用視頻字幕來構建偽場景圖進行模型訓練,也使用外部物體檢測器進行物體檢測,但由于相同的物體檢測質量問題,其 DSGG 性能低于我們的方法。我們還與 RLIP 和 RLIPv2 進行了比較,它們以零樣本方式進行場景圖預測,將每一幀視為靜態圖像。然而,它們的性能較差,進一步說明了時序和動態信息和時序增強且關系敏感的知識對于動態場景圖任務的必要性。
④消融實驗
![]()
表 3:不同模塊的消融實驗結果
為了驗證本文所提出的各個模塊的有效性,本文進行了消融實驗。CBM, LRM 和 IAA 分別代表置信度提升模塊,定位修正模塊以及幀間注意力增強策略,消融結果如表 3 所示。我們可以得出以下結論:(1)分別采用 CBM 和 LRM 作為知識遷移策略,分別帶來了 1.2% 和 2.0% 的平均精度提升,進而在 SGDET 任務上獲得了性能提升,這表明物體檢測質量在邊界框置信度分數和定位精度方面得到了改善。(2)通過結合 CBM 和 LRM,物體檢測的 AP 平均提升了 2.8%,在有約束 / 無約束場景下,DSGG 任務的表現分別提升了 1.48%/1.94%。這表明,邊界框精度的提升和置信度分數的增強可以相互補充,生成質量更高的物體檢測結果,從而帶來更大的性能提升。(3)融入 IAA 策略后,物體檢測性能進一步提升,AP 提升了 8.9%/10.6%,表明 IAA 有效緩解了模糊和遮擋問題,生成了更好的檢測結果,從而進一步提升了最終場景圖生成的表現。
⑤可視化結果
![]()
圖 5:動態場景圖生成結果可視化
如圖 5 所示,我們給出了和基線模型 PLA [1] 生成動態場景圖效果的對比,得益于我們引入的時序增強關系敏感的知識和我們設計的雙流融合模塊,我們的方法能夠得到更完整的場景圖,并且其中人和物體的定位更加準確,從而使得得到的場景圖質量更高。
更多研究細節,可參考原論文。
參考文獻
[1] Siqi Chen, Jun Xiao, and Long Chen. Video scene graph generation from single-frame weak supervision. In The Eleventh International Conference on Learning Representations,2023.
[2] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow, 2020.
[3] Jingwei Ji, Ranjay Krishna, Li Fei-Fei, and Juan Carlos Niebles. Action genome: Actions as compositions of spatio temporal scene graphs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10236–10247, 2020.
[4] Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, and Deli Zhao. Rlipv2: Fast scaling of relational language-image pre-training, 2023.





京公網安備 11011402013531號