阿里通義實驗室近期在音頻技術領域取得了突破性進展,正式推出了名為ThinkSound的音頻生成模型,并宣布將其開源。 為了訓練ThinkSound模型,通義語音團隊構建了首個支持鏈式推理的多模態音頻數據集Au…
根據通義語音團隊介紹,傳統V2A技術常難以精確捕捉視覺與聲音的時空關聯,導致生成音頻與畫面關鍵事件錯位。ThinkSound由一個多模態大語言模型(負責“思考”推理鏈)和一個統一音頻生成模型(負責“輸出”聲…
該模型支持視頻內容結構化推理生成匹配音頻。
11/24 16:08
11/24 16:07
10/31 16:58
10/31 16:56