
meta攜手斯坦福大學,推出全新AI模型系列Apollo,顯著提升機器對視頻的理解能力。
盡管人工智能在處理圖像和文本方面取得了巨大進步,但讓機器真正理解視頻仍然是一個重大挑戰。因為視頻包含復雜的動態資訊,人工智能更難處理這些資訊,不僅需要更多的計算能力,而且如何設計最佳AI視頻解讀系統,也存在諸多困難。
在視頻處理方面,研究人員發現,保持每秒恒定的幀采樣率能獲得最佳結果。因此Apollo模型使用兩個不同的組件,一個處理單獨的視頻幀,而另一個跟蹤對象和場景如何隨時間變化。目前最常可以處理一小時的長視頻。
此外,在處理后的視頻片段之間添加時間戳,有助于模型理解視覺資訊與文本描述之間的關系,保持時間感知。

在模型訓練方面,團隊研究表明訓練方法比模型大小更重要。Apollo模型采用分階段訓練,按順序啟動模型的不同部分,比一次性訓練所有部分效果更好。

此外meta公司還不斷優化數據組合,發現10-14%的文本數據,其余部分略微偏向視頻內容,可以更好地平衡語言理解和視頻處理能力。

Apollo模型在不同規模上均表現出色,較小的Apollo-3B超越了Qwen2-VL等同等規模的模型,而Apollo-7B超過更大參數的同類模型,meta已開源Apollo的程序代碼和模型權重,并在Hugging Face平臺提供公開展示。

參考
meta's new Apollo models aim to crack the video understanding problem
meta AI Releases Apollo: A New Family of Video-LMMs Large Multimodal Models for Video Understanding
Apollo: An Exploration of Video Understanding in Large Multimodal Models





京公網安備 11011402013531號