7 月 11 日消息,螞蟻集團 10 日開源了名為 EchoMimic 的新項目,其能夠通過人像面部特征和音頻來幫人物“對口型”,結合面部標志點和音頻內容生成較為穩定、自然的視頻。
該項目具備較高的穩定性和自然度,通過融合音頻和面部標志點(面部關鍵特征和結構,通常位于眼、鼻、嘴等位置)的特征,可生成更符合真實面部運動和表情變化的視頻。
其支持單獨使用音頻或面部標志點生成肖像視頻,也支持將音頻和人像照片相結合做出“對口型”一般的效果。據悉,其支持多語言(包含中文普通話、英語)及多風格,也可應對唱歌等場景。
附相關鏈接:
項目地址:https://badtobest.github.io/echomimic.html Github:https://github.com/BadToBest/EchoMimic





京公網安備 11011402013531號