7月4日,阿里通義實(shí)驗(yàn)室宣布開源首個(gè)音頻生成模型ThinkSound。該模型首次將思維鏈(CoT)技術(shù)應(yīng)用于音頻生成領(lǐng)域,旨在解決現(xiàn)有視頻轉(zhuǎn)音頻(V2A)技術(shù)對(duì)畫面動(dòng)態(tài)細(xì)節(jié)和事件邏輯理解不足的問(wèn)題。
根據(jù)通義語(yǔ)音團(tuán)隊(duì)介紹,傳統(tǒng)V2A技術(shù)常難以精確捕捉視覺(jué)與聲音的時(shí)空關(guān)聯(lián),導(dǎo)致生成音頻與畫面關(guān)鍵事件錯(cuò)位。ThinkSound通過(guò)引入結(jié)構(gòu)化推理機(jī)制,模仿人類音效師的分析過(guò)程:首先理解視頻整體畫面與場(chǎng)景語(yǔ)義,再聚焦具體聲源對(duì)象,最后響應(yīng)用戶編輯指令,逐步生成高保真且同步的音頻。

圖源:通義大模型微信公眾號(hào)
為訓(xùn)練模型,團(tuán)隊(duì)構(gòu)建了首個(gè)支持鏈?zhǔn)酵评淼亩嗄B(tài)音頻數(shù)據(jù)集AudioCoT,包含超2531小時(shí)高質(zhì)量樣本,覆蓋豐富場(chǎng)景,并設(shè)計(jì)了面向交互編輯的對(duì)象級(jí)和指令級(jí)數(shù)據(jù)。ThinkSound由一個(gè)多模態(tài)大語(yǔ)言模型(負(fù)責(zé)“思考”推理鏈)和一個(gè)統(tǒng)一音頻生成模型(負(fù)責(zé)“輸出”聲音)組成。

ThinkSound 音頻生成模型的工作流
據(jù)悉,ThinkSound在多項(xiàng)權(quán)威測(cè)試中表現(xiàn)優(yōu)于現(xiàn)有主流方法。該模型現(xiàn)已開源,開發(fā)者可在GitHub、Hugging Face、魔搭社區(qū)獲取代碼和模型。未來(lái)將拓展其在游戲、VR/AR等沉浸式場(chǎng)景的應(yīng)用。
以下附上開源地址:
https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound





京公網(wǎng)安備 11011402013531號(hào)