近日,夸克AI技術(shù)團隊與浙江大學強強聯(lián)手,共同開源了一項創(chuàng)新成果——OmniAvata,這是一款領(lǐng)先的音頻驅(qū)動全身視頻生成模型,將為視頻生成領(lǐng)域帶來了革命性的變化。
傳統(tǒng)上,音頻驅(qū)動人體運動的技術(shù)多集中于面部運動,缺乏全身驅(qū)動能力,且難以進行精確控制。而OmniAvatar的出現(xiàn),徹底改變了這一現(xiàn)狀。只需要輸入一張圖片和一段音頻,OmniAvatar即可生成相應視頻,且顯著提升了畫面中人物的唇形同步細節(jié)和全身動作的流暢性。不僅如此,該模型還可通過提示詞進一步精準控制人物姿勢、情緒、場景等要素。
此外,長視頻連續(xù)生成是音頻驅(qū)動視頻生成的難點,也是一項關(guān)鍵挑戰(zhàn)。為此,OmniAvatar通過參考圖像嵌入策略和幀重疊技術(shù),確保了視頻的連貫性和人物身份的一致性。
本次突破不僅體現(xiàn)在產(chǎn)品層面,OmniAvatar的技術(shù)革新同樣值得關(guān)注。團隊提出了一種基于像素的音頻嵌入策略,使音頻特征可以直接在模型的潛在空間中以像素級的方式融入,從而生成更協(xié)調(diào)、更自然的身體動作來匹配音頻。同時,采用多層級音頻嵌入策略,將音頻信息嵌入到DiT模塊的不同階段中,確保模型在不同層次上保持獨立的學習路徑。
為了解決完整訓練和僅微調(diào)特定層所帶來的問題,團隊還提出了一種基于LoRA的平衡微調(diào)策略。該策略使用LoRA策略高效地適應模型,使模型能夠在不改變底層模型容量的情況下學習音頻特征,從而兼顧了視頻質(zhì)量與細節(jié)。
OmniAvatar是團隊在多模態(tài)視頻生成上的初步嘗試,并在實驗數(shù)據(jù)集上得到了初步驗證,但尚未達到產(chǎn)品級應用水平。未來,團隊還將在復雜指令處理能力、多角色交互等方面進一步探索,擴大模型在更多場景中的應用。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。





京公網(wǎng)安備 11011402013531號