根據通義語音團隊介紹,傳統V2A技術常難以精確捕捉視覺與聲音的時空關聯,導致生成音頻與畫面關鍵事件錯位。ThinkSound由一個多模態大語言模型(負責“思考”推理鏈)和一個統一音頻生成模型(負責“輸出”聲…
該模型支持視頻內容結構化推理生成匹配音頻。
11/24 16:08
11/24 16:07
10/31 16:58
10/31 16:56