本篇綜述工作已被IEEE 模式分析與機器智能匯刊(IEEE TPAMI)接收,作者來自三個團隊:香港大學(xué)俞益洲教授與博士生陳超奇、周洪宇,香港中文大學(xué)(深圳)韓曉光教授與博士生吳毓雙、許牧天,上海科技大學(xué)楊思蓓教授與碩士生戴啟元。
近年來,由于在圖表示學(xué)習(xí)(graph representation learning)和非網(wǎng)格數(shù)據(jù)(non-grid data)上的性能優(yōu)勢,基于圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)的方法被廣泛應(yīng)用于不同問題并且顯著推動了相關(guān)領(lǐng)域的進步,包括但不限于數(shù)據(jù)挖掘(例如,社交網(wǎng)絡(luò)分析、推薦系統(tǒng)開發(fā))、計算機視覺(例如,目標檢測、點云處理)和自然語言處理(例如,關(guān)系提取、序列學(xué)習(xí))。考慮到圖神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了豐碩的成果,一篇全面且詳細的綜述可以幫助相關(guān)研究人員掌握近年來計算機視覺中基于圖神經(jīng)網(wǎng)絡(luò)的方法的進展,以及從現(xiàn)有論文中總結(jié)經(jīng)驗和產(chǎn)生新的想法。可惜的是,我們發(fā)現(xiàn)由于圖神經(jīng)網(wǎng)絡(luò)在計算機視覺中應(yīng)用非常廣泛,現(xiàn)有的綜述文章往往在全面性或者時效性上存在不足,因此無法很好的幫助科研人員入門和熟悉相關(guān)領(lǐng)域的經(jīng)典方法和最新進展。同時,如何合理地組織和呈現(xiàn)相關(guān)的方法和應(yīng)用是一個不小的挑戰(zhàn)。

盡管基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法在處理圖像等規(guī)則網(wǎng)格上定義的輸入數(shù)據(jù)方面表現(xiàn)出色,研究人員逐漸意識到,具有不規(guī)則拓撲的視覺信息對于表示學(xué)習(xí)至關(guān)重要,但尚未得到徹底研究。與具有內(nèi)在連接和節(jié)點概念的自然圖數(shù)據(jù)(如社交網(wǎng)絡(luò))相比,從規(guī)則網(wǎng)格數(shù)據(jù)構(gòu)建圖缺乏統(tǒng)一的原則且嚴重依賴于特定的領(lǐng)域知識。另一方面,某些視覺數(shù)據(jù)格式(例如點云和網(wǎng)格)并非在笛卡爾網(wǎng)格上定義的,并且涉及復(fù)雜的關(guān)系信息。因此,規(guī)則和不規(guī)則的視覺數(shù)據(jù)格式都將受益于拓撲結(jié)構(gòu)和關(guān)系的探索,特別是對于具有挑戰(zhàn)性的任務(wù),例如理解復(fù)雜場景、從有限的經(jīng)驗中學(xué)習(xí)以及跨領(lǐng)域進行知識傳遞。
在計算機視覺領(lǐng)域,目前許多與 GNN 相關(guān)的研究都有以下兩個目標之一:(1) GNN 和 CNN 主干的混合,以及 (2) 用于表示學(xué)習(xí)的純 GNN 架構(gòu)。前者通常旨在提高基于 CNN 的特征的遠程建模能力,并適用于以前使用純 CNN 架構(gòu)解決的視覺任務(wù),例如圖像分類和語義分割。后者用作某些視覺數(shù)據(jù)格式(例如點云)的特征提取器。盡管取得了豐碩的進展,但仍然沒有一篇綜述能夠系統(tǒng)、及時地回顧基于 GNN 的計算機視覺的發(fā)展情況。
在本文中,我們首先介紹了圖神經(jīng)網(wǎng)絡(luò)的發(fā)展史和最新進展,包括最常用、最經(jīng)典的圖神經(jīng)網(wǎng)絡(luò)和圖 Transformers。然后,我們以任務(wù)為導(dǎo)向?qū)τ嬎銠C視覺中基于圖神經(jīng)網(wǎng)絡(luò)(包括圖 Transformers)的方法和最新進展進行了全面且詳細的調(diào)研。具體來說,我們根據(jù)輸入數(shù)據(jù)的模態(tài)將圖神經(jīng)網(wǎng)絡(luò)在計算機視覺中的應(yīng)用大致劃分為五類:自然圖像(二維)、視頻、視覺 + 語言、三維數(shù)據(jù)(例如,點云)以及醫(yī)學(xué)影像。在每個類別中,我們再根據(jù)視覺任務(wù)的不同對方法和應(yīng)用進一步分類。這種以任務(wù)為導(dǎo)向的分類法使我們能夠研究不同的基于圖神經(jīng)網(wǎng)絡(luò)的方法是如何處理每個任務(wù)的,以及較為公平地比較這些方法在不同數(shù)據(jù)集上的性能,在內(nèi)容上我們同時還涵蓋了基于 Transformers 的圖神經(jīng)網(wǎng)絡(luò)方法。對于不同的任務(wù),我們系統(tǒng)性地總結(jié)了其統(tǒng)一的數(shù)學(xué)表達,闡明了我們組織這些文章的邏輯關(guān)系,突出了該領(lǐng)域的關(guān)鍵挑戰(zhàn),展示了圖神經(jīng)網(wǎng)絡(luò)在應(yīng)對這些挑戰(zhàn)的獨特優(yōu)勢,并討論了它的局限和未來發(fā)展路線。

圖神經(jīng)網(wǎng)絡(luò)發(fā)展史
GNN 最初以循環(huán) GNN 的形式發(fā)展,用于從有向無環(huán)圖中提取節(jié)點表示。隨著研究的發(fā)展,GNN 逐漸擴展到更多類型的圖結(jié)構(gòu),如循環(huán)圖和無向圖。受到深度學(xué)習(xí)中 CNN 的啟發(fā),研究人員開發(fā)了將卷積概念推廣到圖域的方法,主要包括基于頻域的方法和基于空域的方法。頻域方法依賴于圖的拉普拉斯譜來定義圖卷積,而空域方法則通過聚合節(jié)點鄰居的信息來實現(xiàn)圖卷積。這些方法為處理復(fù)雜的圖結(jié)構(gòu)和不規(guī)則拓撲提供了有效的工具,極大地推動了 GNN 在多個領(lǐng)域,尤其是計算機視覺中的應(yīng)用和發(fā)展。

具體來說,我們詳盡地調(diào)查了如下這些任務(wù):
建立在自然圖像(二維)上的視覺任務(wù)包括 Image Classification (multi-label、few-shot、zero-shot、transfer learning),Object Detection,Semantic Segmentation,和 Scene Graph Generation。建立在視頻上的視覺任務(wù)包括 Video Action Recognition,Temporal Action Localization,Multi-Object Tracking,Human Motion Prediction,和 Trajectory Prediction。視覺 + 語言方向的任務(wù)包括 Visual Question Answering,Visual Grounding,Image Captioning,Image-Text Matching,和 Vision-Language Navigation。建立在三維數(shù)據(jù)上的視覺任務(wù)包括 3D Representation Learning (Point Clouds、Meshes),3D Understanding (Point Cloud Segmentation、3D Object Detection、3D Visual Grounding),和 3D Generation (Point Cloud Completion、3D Data Denoising、3D Reconstruction)。建立在醫(yī)學(xué)影像上的任務(wù)包括 Brain Activity Investigation,Disease Diagnosis (Brain Diseases、Chest Diseases),Anatomy Segmentation (Brain Surfaces、Vessels、etc)。總結(jié)來說,盡管在感知領(lǐng)域取得了突破性的進展,如何賦予深度學(xué)習(xí)模型推理能力仍然是現(xiàn)代計算機視覺系統(tǒng)面臨的巨大挑戰(zhàn)。在這方面,圖神經(jīng)網(wǎng)絡(luò)和圖 Transformers 在處理 “關(guān)系” 任務(wù)方面表現(xiàn)出了顯著的靈活性和優(yōu)越性。為此,我們從面向任務(wù)的角度首次對計算機視覺中的圖神經(jīng)網(wǎng)絡(luò)和圖 Transformers 進行了全面的綜述。各種經(jīng)典和最新的算法根據(jù)輸入數(shù)據(jù)的模態(tài)(如圖像、視頻和點云)分為五類。通過系統(tǒng)地整理每個任務(wù)的方法,我們希望本綜述能夠為未來的更多進展提供啟示。通過討論關(guān)鍵的創(chuàng)新、局限性和潛在的研究方向,我們希望讀者能夠獲得新的見解,并朝著類似人類的視覺理解邁進一步。





京公網(wǎng)安備 11011402013531號