IT之家 8 月 23 日消息,科技媒體 9to5Mac 今天發(fā)布博文,報(bào)道稱(chēng)蘋(píng)果研究團(tuán)隊(duì)開(kāi)源 SlowFast-LLaVA-1.5 長(zhǎng)視頻多模態(tài)大語(yǔ)言模型,在 1B、3B、7B 參數(shù)規(guī)模下,均刷新 LongVideoBench、MLVU 等 SOTA 基準(zhǔn)紀(jì)錄。
IT之家援引博文介紹,當(dāng)前大語(yǔ)言模型在處理和理解視頻方面,通用做法是在 AI 預(yù)訓(xùn)練中集成視頻感知,但這種做法存在以下 3 重局限性:
現(xiàn)有現(xiàn)有模型往往嚴(yán)重依賴長(zhǎng)上下文窗口,而處理時(shí)通常會(huì)遇到大量冗余幀,易超出上下文窗口限制,從而丟失信息。
大多數(shù)訓(xùn)練需要復(fù)雜的多階段訓(xùn)練管道(通常使用私有數(shù)據(jù)集),難以重現(xiàn)。
許多模型僅針對(duì)視頻任務(wù)優(yōu)化,限制了在圖像的理解,從而降低通用模型的實(shí)用性。
蘋(píng)果公司針對(duì)上述 3 個(gè)局限性,首先研究推出了 SlowFast-LLaVA 開(kāi)源模型,最大的亮點(diǎn)是創(chuàng)新雙流(two-stream)設(shè)置,其中“慢流”選取少量高分辨率幀捕捉場(chǎng)景細(xì)節(jié),“快流”選取更多低分辨率幀追蹤運(yùn)動(dòng)變化。

蘋(píng)果進(jìn)一步在開(kāi)源模型 SlowFast-LLaVA 模型上,通過(guò)微調(diào)圖像模型,進(jìn)一步增強(qiáng)視覺(jué)推理能力,再聯(lián)合圖像與視頻訓(xùn)練,保留圖像理解優(yōu)勢(shì),推出了 SlowFast-LLaVA-1.5 版本。
在設(shè)計(jì)上,SF-LLaVA-1.5 將輸入視頻幀數(shù)固定為 128,其中快流 96 幀,慢流 32 幀,適配各種時(shí)長(zhǎng)視頻。這種方法雖可能漏掉關(guān)鍵幀或影響播放速度判斷,但顯著降低了計(jì)算和顯存需求。研究團(tuán)隊(duì)指出,可通過(guò)引入內(nèi)存優(yōu)化技術(shù)(如隨機(jī)反向傳播)進(jìn)一步改進(jìn),但需解決高顯存占用問(wèn)題。

測(cè)試顯示,該模型在長(zhǎng)視頻基準(zhǔn) LongVideoBench、MLVU 上均取得新紀(jì)錄,而且 1B 版本也能領(lǐng)先競(jìng)爭(zhēng)對(duì)手。同時(shí),它在知識(shí)問(wèn)答、數(shù)學(xué)推理、OCR 等圖像相關(guān)任務(wù)上表現(xiàn)出色,實(shí)現(xiàn)視頻與圖像的通用理解能力。

該項(xiàng)目完全基于公開(kāi)數(shù)據(jù)集訓(xùn)練,方便學(xué)術(shù)與產(chǎn)業(yè)復(fù)現(xiàn),并已在 GitHub 與 Hugging Face 開(kāi)源。








京公網(wǎng)安備 11011402013531號(hào)