近日,復旦大學與百度聯(lián)合研發(fā)了Hallo2這一先進AI模型,實現(xiàn)了視頻生成領(lǐng)域的重大突破,可生成長達數(shù)小時且分辨率為4K的人物動畫。該模型已在GitHub平臺開源,便于全球開發(fā)者免費使用和研究,此舉有望促進視頻生成技術(shù)的廣泛應用和發(fā)展。

Hallo2模型首次將可調(diào)整的語義文本標簽的肖像表情作為條件輸入,提高了生成內(nèi)容的可控性和多樣性。這使得Hallo2成為首個實現(xiàn)4K分辨率、長達1小時音頻驅(qū)動人像圖像動畫的AI模型。
Hallo2的主要應用場景:
電影和視頻制作:可用于生成或增強角色面部表情和口型,適用于科幻和動畫電影。
虛擬助手和數(shù)字人:在客服、教育、娛樂等領(lǐng)域,Hallo2能創(chuàng)建逼真的虛擬助手或數(shù)字人,提升用戶體驗。
Hallo2技術(shù)特點:
基于latent diffusion models構(gòu)建,Hallo2在視頻生成效果上優(yōu)于前代模型。
引入數(shù)據(jù)增強技術(shù),如patch-drop和高斯噪聲,有效提升長時間視頻的視覺一致性和時間連貫性。
結(jié)合向量量化生成對抗網(wǎng)絡和時間對齊技術(shù),確保視頻質(zhì)量與流暢性。





京公網(wǎng)安備 11011402013531號