5 月 18 日消息,B站團隊 5 月 12 日開源了動漫視頻生成模型 AniSora。
AniSora 能夠一鍵創建多種動漫風格的視頻片段,包括系列劇集、中國原創動畫、漫畫改編、VTuber 內容、動漫 PV 和鬼畜動畫等。

B站團隊表示,動畫內容在當今影視行業中備受關注。盡管 Sora、Kling、CogVideoX 等先進模型在自然視頻生成方面表現出色,但在動漫視頻上仍捉襟見肘。
此外,由于動漫獨特的藝術風格、夸張的運動以及對物理規律的打破,也給評測帶來了巨大挑戰。
該項目提出了完整的系統 AniSora,涵蓋:
數據處理流水線:超過 1000 萬高質量數據; 可控生成模型:引入時空掩碼模塊,支持圖生視頻、幀插值、局部圖像引導等關鍵動畫制作功能; 評測數據集:收集 948 段多樣化動畫視頻,配套雙盲人評實驗及 VBench 測試,人物一致性與運動一致性均達到 SOTA。

附 AniSora 圖生視頻示例:
示例 1

圖中的人物坐在一輛向前行駛的汽車里,向后揮手,他們的頭發在風中左右搖擺:

示例 2

場景顯示兩個身穿紅色婚服的人物手持紅繩走向遠方:

示例 3

金發人物伸手觸摸跪著的人物的頭部,跪著的人物隨著呼吸身體上下起伏:

示例 4

視頻中,一名白發女孩跳舞,鏡頭拉近。她一邊唱歌一邊將右手旋轉向鏡頭,手指張開:

示例 5

視頻中,五名女孩跳舞,鏡頭拉近。她們一邊唱歌一邊將左手舉過頭頂,然后下拉至膝蓋高度:

示例 6

幀中,一個人高速向前沖刺,動作因速度而略顯模糊:

示例 7

幀中,角色舉起手臂,表面可見氣流流動:

示例 8

老人凝視著寶石,右手微調放大鏡,嘴唇在動 —— 仿佛這顆寶石是解開某些古老知識或秘密的關鍵:

示例 9

左邊的男人緊閉雙唇,臉上刻著憤怒和決心。他的每一個表情都散發著深深的挫敗感和堅定不移的信念。與此同時,另一個人張開嘴巴 —— 似乎即將爆發成一聲喊叫或激情宣言:

示例 10

場景描繪了一塊巖石爆炸,發出耀眼的光芒,碎片四散飛濺:

附 AniSora 開源地址:





京公網安備 11011402013531號