12月16日,字節跳動發布新一代音視頻生成模型Seedance 1.5 pro。該模型支持從文本或圖像生成帶有同步音頻的視頻,實現了音視頻的聯合生成。

據介紹,Seedance 1.5 pro在音畫同步方面進行了優化,旨在提升生成內容中口型、語調與表演節奏的一致性。模型支持包括中文、英文、日文在內的多語種,并可模擬四川話、粵語等方言的語音特征。在視頻層面,該模型聲稱具備一定的自主運鏡調度能力,可生成如長鏡頭跟隨、希區柯克式變焦等效果,以增強畫面的動態張力與敘事感。
技術層面,該模型采用了基于MMDiT架構的音視頻聯合生成框架,并通過多階段數據鏈路與強化學習方式進行優化。團隊表示,其已在影視創作、廣告制作、短劇及游戲內容等場景中進行測試,生成內容在指令遵循、音質表現等方面有所提升,但在復雜運動的物理穩定性、多角色對話等方面仍有改進空間。






京公網安備 11011402013531號