![]()
這項由阿里巴巴達摩院和湖畔實驗室研究團隊共同完成的重要研究發表于2025年6月,論文題為《VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding》。研究團隊包括張博強、李可汗、程澤森、胡志強、袁宇乾等多位研究人員,他們在多模態人工智能領域取得了重要進展。有興趣深入了解的讀者可以通過項目倉庫https://github.com/DAMO-NLP-SG/VideoLLaMA3訪問完整的技術細節和代碼實現。
想象一下,如果有一個助手不僅能像人類一樣理解靜態的圖片,還能準確把握視頻中不斷變化的情節內容,那會是什么樣的體驗?這就是達摩院研究團隊致力解決的核心問題。在當今這個視覺信息爆炸的時代,我們每天都要處理大量的圖片和視頻內容,從社交媒體的短視頻到工作中的文檔圖表,從在線教育的課程視頻到醫療診斷的影像資料。然而,現有的AI系統往往在處理這些視覺內容時存在明顯的短板——要么擅長分析靜態圖片,要么專攻視頻理解,很難做到兩者兼顧。
這種局限性就像是培養了兩個專門的翻譯官,一個只會翻譯書面文件,另一個只會處理對話錄音,但在實際工作中,我們經常需要同時處理包含文字、圖片和視頻的復合材料。為了解決這個問題,研究團隊開發了VideoLLaMA3,這是一個能夠同時理解圖像和視頻的先進AI模型。
VideoLLaMA3的創新之處在于采用了"以視覺為中心"的設計理念。這個理念包含兩個層面的含義:訓練方法以視覺為中心,以及框架設計以視覺為中心。研究團隊發現了一個關鍵洞察——高質量的圖像-文本數據對于圖像和視頻理解都至關重要。這就好比學習語言時,掌握好基礎的詞匯和語法對于理解簡單句子和復雜文章都同樣重要。
傳統的做法是分別收集大量的視頻-文本數據集來訓練視頻理解模型,但這種方法面臨著數據質量不高、標注困難等挑戰。研究團隊另辟蹊徑,將重點放在構建大規模、高質量的圖像-文本數據集上。這種策略的巧妙之處在于,視頻本質上就是由一系列時間上相關的圖像組成的,因此強化圖像理解能力自然能夠提升視頻理解性能。這就像是通過練好書法基本功,不僅能寫出漂亮的單個字,也能創作出優美的書法作品一樣。
**一、創新訓練流程:從基礎到高級的四階段學習法**
VideoLLaMA3的訓練過程就像是培養一個多才多藝學生的完整教育歷程,分為四個遞進的學習階段,每個階段都有明確的學習目標和訓練重點。
第一階段是"視覺編碼器適應"階段,這個階段使用了1557萬條數據進行訓練。在這個階段,模型學會了處理不同分辨率的圖像輸入,就像是讓一個學生學會閱讀不同大小、不同字體的文字材料一樣。訓練數據主要包括場景圖像、文檔圖像和場景文本圖像。場景圖像幫助模型理解日常生活中的各種場景,文檔圖像讓模型學會處理正式的文字材料,而場景文本圖像則訓練模型識別現實環境中的文字信息,比如路標、商店招牌等。
第二階段是"視覺-語言對齊"階段,使用了2197萬條高質量數據。這個階段的目標是建立視覺信息和語言描述之間的深度連接。研究團隊精心準備了多種類型的數據:詳細描述的場景圖像讓模型學會用豐富的語言描述所看到的內容;文檔和圖表數據包含了大量的解釋性文本,幫助模型理解復雜的信息呈現方式;細粒度的圖像-文本數據帶有邊界框標注,提升了模型的空間推理能力。為了保持模型的語言能力,訓練數據中還包含了少量純文本數據。在這個階段,模型的所有參數都參與訓練,確保視覺理解和語言處理能力能夠充分融合。
第三階段是"多任務微調"階段,使用了1905萬條數據。這個階段將模型訓練成能夠處理各種下游任務的多面手。訓練數據涵蓋了圖像-文本問答、文檔理解、圖表分析、OCR識別、目標定位、多圖像理解等多個領域。有趣的是,研究團隊發現在這個階段引入通用視頻字幕數據不僅為視頻理解打下了基礎,還意外地提升了圖像理解性能。這就像是學習繪畫時,練習素描不僅提高了素描技巧,也改善了色彩繪畫的能力。
第四階段是"視頻中心微調"階段,使用了571萬條數據進行最終的專門訓練。這個階段專注于增強模型的視頻理解和視頻問答能力。訓練數據包括通用視頻、流媒體視頻、帶有時間定位標注的視頻,以及圖像和文本數據以防止能力退化。這個階段還引入了流媒體視頻理解功能,讓模型能夠處理實時視頻內容并進行多輪對話。
**二、核心技術創新:靈活視覺處理的兩大法寶**
VideoLLaMA3在技術框架上實現了兩個重要創新,這兩個創新就像是為模型裝備了兩件強大的工具,讓它能夠更靈活、更高效地處理各種視覺輸入。
第一個創新是"任意分辨率視覺標記化"技術。傳統的視覺模型就像是只會看固定尺寸照片的老式相機,無論輸入什么樣的圖像,都要先壓縮或拉伸到固定的尺寸,這個過程中難免會丟失一些重要信息。VideoLLaMA3采用的新方法就像是配備了可變焦鏡頭的現代相機,能夠根據輸入圖像的實際尺寸動態調整處理方式。
具體來說,研究團隊將傳統視覺編碼器中的固定位置編碼替換為旋轉位置編碼(RoPE),這使得模型能夠處理任意分辨率的圖像輸入。經過專門的微調訓練,模型獲得了處理高分辨率圖像和異常長寬比圖像的能力,同時最大限度地減少了信息損失。這種設計特別適合處理現實世界中各種尺寸和比例的圖像,從手機拍攝的豎屏照片到寬幅的全景圖,都能得到妥善處理。
第二個創新是"差分幀剪枝器"技術,專門用于視頻處理的優化。視頻理解的一個主要挑戰是計算量巨大——一個幾分鐘的視頻可能包含數千幀圖像,如果對每一幀都進行完整處理,計算成本會非常高。差分幀剪枝器的工作原理就像是一個智能的視頻編輯助手,它會比較相鄰幀之間的差異,如果兩幀內容幾乎相同,就會選擇性地跳過一些冗余信息。
這個技術首先在像素空間計算連續幀之間的1-范數距離,然后移除距離小于預設閾值的冗余圖像塊。研究團隊將默認閾值設置為0.1,這個設置能夠在保持視頻內容完整性的同時顯著減少計算量。這種方法的優勢是雙重的:一方面讓視頻的視覺表示更加緊湊和精確,使模型能夠更好地關注視頻中的動態變化部分;另一方面大幅降低了訓練和推理時的計算需求,提高了實際應用的可行性。
**三、高質量數據構建:VL3-Syn7M數據集的精心打造**
為了支撐VideoLLaMA3的訓練,研究團隊構建了一個名為VL3-Syn7M的高質量圖像重新標注數據集。這個數據集的構建過程就像是精心策劃一場大型展覽,需要從海量的原始材料中精選出最優質的展品,然后為每件展品撰寫詳細而準確的說明文字。
整個數據構建流程包含五個精心設計的步驟。首先是長寬比過濾,研究團隊從COYO-700M數據集中篩選出長寬比合理的圖像,剔除那些過于極端的長條形或寬條形圖像。這一步驟確保了數據集包含的圖像具有典型的長寬比例,避免在特征提取時產生偏差。
接下來是美學評分過濾,使用專門的美學評分模型對圖像進行質量評估,排除視覺質量較差或構圖不佳的圖像。這就像是為畫展挑選作品時,首先要確保每件作品都具有基本的藝術價值和視覺吸引力。
第三步是文本-圖像相似度計算與粗糙標注。研究團隊使用BLIP2模型為圖像生成初始描述,然后利用CLIP模型計算文本和圖像之間的相似度。那些相似度較低的圖像被排除,因為它們往往包含難以簡潔描述的復雜內容。這個過程確保了剩余圖像都是可以被準確描述和理解的。
第四步是視覺特征聚類,使用CLIP視覺模型提取圖像特征,并應用K近鄰算法進行聚類分析。這種方法能夠識別視覺特征空間中的聚類中心,然后從每個聚類中選擇固定數量的圖像。這種做法確保了數據集的多樣性,同時維持了語義類別的平衡分布,提高了模型的泛化能力。
最后一步是圖像重新標注,這是整個過程中最關鍵的環節。研究團隊使用InternVL2-8B模型生成簡短標注,使用InternVL2-26B模型生成詳細標注。這兩種類型的標注在訓練的不同階段發揮不同作用:簡短標注(VL3-Syn7M-short)用于早期訓練階段,幫助模型學習基本的視覺-語言對應關系;詳細標注(VL3-Syn7M-detailed)用于后期訓練,提供豐富的描述信息以提升模型的表達能力。
通過這個嚴格的清洗和重新標注過程,研究團隊最終創建了包含700萬圖像-標注對的VL3-Syn7M數據集。這個數據集為VideoLLaMA3的訓練提供了高質量、多樣化的圖像和標注,成為模型取得優異性能的重要基礎。
**四、全面性能評估:在圖像和視頻理解領域的卓越表現**
VideoLLaMA3在各項評測中展現出了令人印象深刻的性能表現,就像是一位在多個學科都表現優異的全才學生,不僅在擅長的領域表現出色,在具有挑戰性的任務中也能脫穎而出。
在圖像理解方面,VideoLLaMA3接受了多個維度的嚴格測試。在文檔、圖表和場景文字理解任務中,模型展現出了強大的文字識別和理解能力。以2B參數版本為例,在ChartQA圖表問答任務中獲得了79.8分的成績,顯著超越了同等規模的其他模型;在DocVQA文檔問答測試中達到了91.9分,在InfoVQA信息圖表問答中取得69.4分,在OCRBench光學字符識別基準測試中獲得779分。這些成績表明VideoLLaMA3不僅能夠準確識別圖像中的文字內容,還能深度理解文字所承載的語義信息。
在數學推理能力測試中,VideoLLaMA3更是展現出了突破性的性能提升。在MathVista數學視覺推理測試中,2B版本獲得了59.2分,比之前的最佳方法提高了7.9個百分點;7B版本更是達到了67.1分,比同類模型高出6.5個百分點。在MathVision測試中,7B版本取得了26.2分的成績,大幅超越了其他方法。這種在數學推理方面的顯著提升說明模型不僅具備了基礎的視覺識別能力,還發展出了復雜的邏輯推理能力。
在多圖像理解任務中,VideoLLaMA3同樣表現優秀。在MMMU-Pro測試中,2B版本獲得28.6分,7B版本達到33.6分;在MMMU評估中,2B版本取得45.3分,顯示出了處理多個圖像間復雜關系的能力。在通用知識問答方面,模型在RealWorldQA真實世界問答中表現突出,2B版本獲得67.3分,7B版本達到72.7分,這表明模型能夠將視覺信息與現實世界的知識有效結合。
在視頻理解領域,VideoLLaMA3的表現同樣令人矚目。在通用視頻理解任務中,2B版本在VideoMME無字幕測試中獲得59.6分,在有字幕測試中達到63.4分;在長視頻理解的MLVU測試中取得65.4分,在時間推理的TempCompass測試中獲得63.4分。7B版本的表現更加出色,在多項視頻理解基準測試中都取得了最佳成績。
特別值得注意的是,VideoLLaMA3在長視頻理解方面展現出了獨特的優勢。模型能夠處理長達數小時的視頻內容,準確理解視頻中的事件發展和人物關系變化。在流媒體視頻理解任務中,模型展現出了實時處理能力,能夠在視頻播放過程中進行多輪對話和問答。在時間定位任務中,模型能夠準確識別特定事件在視頻中發生的具體時間段,這對于視頻檢索和分析應用具有重要價值。
**五、技術細節與實現:精密工程的完美體現**
VideoLLaMA3的技術實現體現了研究團隊在系統工程方面的深厚功底,每個技術細節都經過了精心設計和反復優化。模型架構由四個核心組件組成:視覺編碼器負責提取視覺特征,視頻壓縮器用于減少視頻標記數量,投影器負責特征對齊,大語言模型負責最終的理解和生成。
視覺編碼器采用預訓練的SigLIP模型進行初始化,這個選擇基于研究團隊進行的詳細比較實驗。他們對比了CLIP、DFN和SigLIP三種不同的視覺編碼器,發現SigLIP在處理包含文字的細粒度理解任務中表現最佳,特別適合VideoLLaMA3的應用需求。為了支持動態分辨率處理,研究團隊對SigLIP進行了適應性改造,使其能夠處理各種尺寸和長寬比的輸入圖像。
在訓練策略方面,不同階段采用了不同的學習率設置和優化策略。在視覺編碼器適應階段,只有視覺編碼器和投影器參與訓練,其學習率分別設置為1.0×10^-5和1.0×10^-3。在后續階段,大語言模型、投影器和視覺編碼器的學習率分別設置為1.0×10^-5、1.0×10^-5和2.0×10^-6,這種精細的學習率控制確保了各組件能夠協調優化。
為了控制計算復雜度,研究團隊實施了多項優化策略。差分幀剪枝器在多任務微調和視頻中心微調階段被激活,丟棄閾值設置為0.1。為了進一步限制上下文長度,視頻的視覺標記在經過視覺編碼器處理后還要經過2倍的雙線性插值空間降采樣。這些技術細節的精心設計確保了模型在保持高性能的同時具有實用性。
在數據處理方面,視頻加載采用FFmpeg以每秒1幀的速度進行采樣,如果總幀數超過180幀,則進行均勻二次采樣。這種處理方式能夠適應大多數時長在3分鐘以內的視頻內容。最大標記長度設置為16384,其中視覺標記的最大長度為10240,這種配置在保證處理能力的同時控制了內存使用。
**六、實際應用案例:從理論到實踐的完美轉化**
為了展示VideoLLaMA3的實際應用效果,研究團隊提供了多個生動的使用案例,這些案例就像是模型能力的最佳展示窗口,讓人們直觀地看到先進技術如何解決現實問題。
在圖表圖像理解方面,VideoLLaMA3展現出了專業分析師般的洞察力。當面對一張股票走勢圖時,模型不僅能夠準確識別價格波動模式,還能提供投資建議。它會指出股票表現出高波動性和潛在風險,建議投資者保持謹慎,進行充分研究并考慮投資組合多樣化以降低風險。面對多個模型性能比較圖表時,模型能夠準確識別出表現最強的模型和最優化的模型,展現出對復雜數據可視化內容的深度理解能力。
在文檔和OCR處理方面,模型展現出了精準的文字識別和內容理解能力。當處理一張設計海報時,模型不僅能夠準確識別所有文字內容,還能從設計角度提出改進建議,指出視覺層次不夠清晰、信息不夠完整、色彩搭配可以更加鮮明等問題,并提供具體的優化方案。在處理學術文檔時,模型能夠準確解析復雜的技術文本,從左到右、從上到下按照正確的閱讀順序提取所有文字內容。
在多圖像理解任務中,VideoLLaMA3展現出了卓越的跨圖像分析能力。當比較兩種不同鳥類的圖像時,模型能夠準確描述它們的外觀差異。在處理長篇文檔查找任務時,模型不是簡單地進行文字識別,而是真正理解內容并定位到相關信息,這種能力遠遠超越了基礎的OCR功能。在理解連環畫故事時,模型能夠根據前面的情節發展,合理推斷出故事的結局,展現出了敘事理解和邏輯推理能力。
在視頻理解方面,VideoLLaMA3的表現更加出色。它能夠識別視頻中不尋常的場景,比如熊在餐桌前享用壽司這樣的超現實情境。在描述復雜場景時,模型能夠準確識別空間布局和物體位置關系,詳細描述后院、露臺、室內空間的布局和裝飾情況。在處理動態內容時,模型能夠準確跟蹤變化過程,比如識別鍵盤按鍵消失的順序,或者描述氣泡獨角獸的動作。
在長視頻理解和時間定位任務中,模型展現出了專業級的分析能力。它能夠處理長達數分鐘的旅游宣傳片,準確描述其中展現的各種俄羅斯風光和文化元素。在時間定位任務中,模型能夠精確識別特定動作發生的時間段,比如準確識別出男子倒可樂的動作發生在23.1秒到36.8秒之間。在視頻-圖像聯合理解任務中,模型能夠準確判斷視頻內容和靜態圖像之間是否存在關聯性。
**七、技術影響與未來展望:開啟多模態AI新時代**
VideoLLaMA3的發布標志著多模態人工智能領域的一個重要里程碑,它不僅在技術性能上實現了顯著突破,更重要的是為整個行業的發展指明了新的方向。這項研究的影響就像是在靜水中投下的石子,產生的漣漪效應將在多個領域中逐漸顯現。
在教育領域,VideoLLaMA3能夠成為智能教學助手,同時處理教材中的圖片、圖表和教學視頻,為學生提供更加豐富和準確的解釋。它能夠分析復雜的科學圖表,解釋歷史文檔,理解數學公式的視覺表示,甚至分析教學視頻中的實驗過程,為個性化學習提供強有力的支持。
在醫療健康領域,這種同時理解靜態醫學影像和動態檢查視頻的能力具有巨大潛力。模型能夠分析X光片、CT掃描圖像,同時理解手術視頻或康復訓練視頻中的動作序列,為醫生提供更加全面的診斷輔助信息。
在內容創作和媒體行業,VideoLLaMA3能夠自動生成視頻和圖像的詳細描述,協助內容審核,甚至參與創意構思過程。它能夠理解廣告圖片的設計意圖,分析宣傳視頻的敘事結構,為創作者提供專業的反饋和建議。
在智能客服和用戶支持領域,模型能夠同時理解用戶提供的截圖、產品圖片和演示視頻,提供更加精準和有用的幫助。無論用戶遇到的是靜態界面問題還是動態操作困難,模型都能給出針對性的解決方案。
研究團隊在論文中也坦誠地討論了當前技術的局限性和未來的改進方向。他們指出,雖然利用大規模圖像-文本數據集取得了顯著效果,但視頻-文本數據的質量和多樣性仍然是一個制約因素。視頻數據往往存在標注質量較低、多樣性有限的問題,這可能影響模型在不同視頻領域和類型中的泛化能力。
另一個重要挑戰是實時處理能力。當前的模型架構可能還不夠優化,無法滿足自動駕駛和實時視頻分析等需要即時響應的應用需求。處理高分辨率和長時間視頻輸入時的計算開銷仍然會影響實時性能表現。
在多模態擴展方面,雖然VideoLLaMA3在圖像和視頻理解方面表現出色,但它向其他模態(如音頻或語音數據)的擴展能力還有待探索。整合更多數據類型需要在架構和訓練方法上進行重大創新,這既是挑戰也是機遇。
面向未來,研究團隊提出了幾個重要的發展方向。首先是投資創建和策劃更高質量、更多樣化的視頻-文本數據集,這些數據集需要包含更細致的時間和上下文信息標注,以顯著提升模型的時間理解能力和跨領域泛化性能。
其次是優化模型架構以實現實時推理,通過減少延遲和提升處理速度,使模型能夠滿足需要即時響應的應用需求。這包括模型加速、并行處理和高效標記化策略等技術創新。
第三是擴展到更多模態,將VideoLLaMA3擴展到音頻、語音和傳感器數據等領域,創建對多模態輸入有更全面理解的系統。這種統一的架構研究對于實現真正的多模態智能至關重要。
最后是實施更高級的訓練后技術,包括大規模強化學習技術的應用。通過人類反饋強化學習和其他基于強化學習的方法,可以進一步優化VideoLLaMA3的性能,使其輸出更好地符合人類偏好和任務特定要求。將這些技術擴展到多模態數據的復雜性將進一步提升模型的整體多模態智能水平。
說到底,VideoLLaMA3代表的不僅僅是一個技術產品,更是人工智能向著更加智能、更加實用方向發展的重要步伐。它證明了通過精心設計的訓練策略和創新的技術架構,我們能夠創造出真正理解復雜視覺世界的AI系統。隨著技術的不斷完善和應用場景的不斷擴展,這類多模態AI模型將成為我們日常生活和工作中不可或缺的智能助手,幫助我們更好地理解和處理這個充滿視覺信息的世界。
Q&A
Q1:VideoLLaMA3相比之前的模型有什么特別之處?
A:VideoLLaMA3最大的特點是采用了"以視覺為中心"的設計理念,不像傳統方法那樣分別訓練圖像和視頻理解能力,而是通過高質量的圖像-文本數據來同時提升圖像和視頻理解性能。它還引入了任意分辨率視覺標記化和差分幀剪枝器兩項關鍵技術,能夠靈活處理各種尺寸的圖像和高效壓縮視頻內容。
Q2:VideoLLaMA3的訓練分為哪幾個階段,每個階段學什么?
A:訓練分為四個遞進階段:首先是視覺編碼器適應階段,學會處理不同分辨率的圖像;然后是視覺-語言對齊階段,建立視覺和語言的深度連接;接著是多任務微調階段,訓練處理各種下游任務;最后是視頻中心微調階段,專門強化視頻理解能力。每個階段都有專門的數據配比和訓練策略。
Q3:VideoLLaMA3在實際應用中能做什么?
A:VideoLLaMA3能夠同時理解圖像和視頻內容,在多個領域都有廣泛應用。比如在教育中可以分析教材圖片和教學視頻,在醫療中可以處理醫學影像和手術視頻,在內容創作中可以理解廣告圖片和宣傳視頻,在客服中可以同時處理用戶提供的截圖和演示視頻,提供更精準的幫助和解答。





京公網安備 11011402013531號