通義AI“音效師”：阿里開源首個(gè)音頻模型ThinkSound

IP屬地中國(guó)·北京 編輯：陳麗鳳凰網(wǎng)科技 時(shí)間：2025-07-04 19:02:37

7月4日，阿里通義實(shí)驗(yàn)室宣布開源首個(gè)音頻生成模型ThinkSound。該模型首次將思維鏈（CoT）技術(shù)應(yīng)用于音頻生成領(lǐng)域，旨在解決現(xiàn)有視頻轉(zhuǎn)音頻（V2A）技術(shù)對(duì)畫面動(dòng)態(tài)細(xì)節(jié)和事件邏輯理解不足的問(wèn)題。
根據(jù)通義語(yǔ)音團(tuán)隊(duì)介紹，傳統(tǒng)V2A技術(shù)常難以精確捕捉視覺(jué)與聲音的時(shí)空關(guān)聯(lián)，導(dǎo)致生成音頻與畫面關(guān)鍵事件錯(cuò)位。ThinkSound通過(guò)引入結(jié)構(gòu)化推理機(jī)制，模仿人類音效師的分析過(guò)程：首先理解視頻整體畫面與場(chǎng)景語(yǔ)義，再聚焦具體聲源對(duì)象，最后響應(yīng)用戶編輯指令，逐步生成高保真且同步的音頻。
圖源：通義大模型微信公眾號(hào)
為訓(xùn)練模型，團(tuán)隊(duì)構(gòu)建了首個(gè)支持鏈?zhǔn)酵评淼亩嗄B(tài)音頻數(shù)據(jù)集AudioCoT，包含超2531小時(shí)高質(zhì)量樣本，覆蓋豐富場(chǎng)景，并設(shè)計(jì)了面向交互編輯的對(duì)象級(jí)和指令級(jí)數(shù)據(jù)。ThinkSound由一個(gè)多模態(tài)大語(yǔ)言模型（負(fù)責(zé)“思考”推理鏈）和一個(gè)統(tǒng)一音頻生成模型（負(fù)責(zé)“輸出”聲音）組成。
ThinkSound 音頻生成模型的工作流
據(jù)悉，ThinkSound在多項(xiàng)權(quán)威測(cè)試中表現(xiàn)優(yōu)于現(xiàn)有主流方法。該模型現(xiàn)已開源，開發(fā)者可在GitHub、Hugging Face、魔搭社區(qū)獲取代碼和模型。未來(lái)將拓展其在游戲、VR/AR等沉浸式場(chǎng)景的應(yīng)用。
以下附上開源地址：
https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound

標(biāo)簽：音頻模型 thinksound 音效師 阿里 模態(tài) 畫面指令通義 github

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

放棄吧！“高速全面取消收費(fèi)”根本沒(méi)戲，免費(fèi)只會(huì)更痛苦

八部門：進(jìn)一步加大力度促進(jìn)汽車消費(fèi) 促進(jìn)汽車梯次消費(fèi)、更新消費(fèi)

新車難用滿十年：技術(shù)短板、消費(fèi)文化與行業(yè)策略如何共同“縮短”壽命

山東青島：“微醺巴士”開拓文旅消費(fèi)新場(chǎng)景

牛市就到這了？

拉布布暑期降溫，中國(guó)潮玩出海彎道超車，誰(shuí)是下一個(gè)頂流IP

全站最新

Windows 11任務(wù)欄至今仍無(wú)法自由移動(dòng)！微軟終于給出原因：沒(méi)用舊代碼

東安動(dòng)力首臺(tái)轉(zhuǎn)子發(fā)動(dòng)機(jī)R05E點(diǎn)火成功，2027年量產(chǎn)

挑戰(zhàn)液態(tài)海洋共識(shí)：NASA研究稱土衛(wèi)六含太陽(yáng)系最大“冰沙”

曝TikTok交易達(dá)成，美國(guó)和字節(jié)跳動(dòng)各掌握一家公司

熱門推薦

放棄吧！“高速全面取消收費(fèi)”根本沒(méi)戲，免費(fèi)只會(huì)更痛苦

八部門：進(jìn)一步加大力度促進(jìn)汽車消費(fèi) 促進(jìn)汽車梯次消費(fèi)、更新消費(fèi)

新車難用滿十年：技術(shù)短板、消費(fèi)文化與行業(yè)策略如何共同“縮短”壽命

山東青島：“微醺巴士”開拓文旅消費(fèi)新場(chǎng)景

牛市就到這了？

拉布布暑期降溫，中國(guó)潮玩出海彎道超車，誰(shuí)是下一個(gè)頂流IP

南城香創(chuàng)始人汪國(guó)玉：平臺(tái)消費(fèi)券激發(fā)消費(fèi)熱情，門店收入利潤(rùn)均提升

通信企業(yè)：“推銷熱售后冷”消磨用戶信任

盛銀消金 25% 股權(quán)再被凍結(jié)！新董事長(zhǎng)年初剛上任

伊利出席第八屆中澳工商界首席執(zhí)行官圓桌會(huì) 助力中澳經(jīng)貿(mào)合作提速升級(jí)

商查平臺(tái)企業(yè)信息查詢新范式：水滴信用企業(yè)查詢MCP

從“閃購(gòu)”到“觀望”：Prime Day被拉長(zhǎng)的背后，是消費(fèi)者與平臺(tái)的“雙重博弈”

澎湃漫評(píng)｜通信企業(yè)為何“推銷熱售后冷”

“電商西進(jìn)”助力豫企破浪：一枚魚油的3000公里“暖心”之旅

京東外賣取消超時(shí)免單，改為“準(zhǔn)時(shí)寶”服務(wù)