7 月 4 日消息,阿里“通義大模型”公眾號今日發(fā)文宣布,通義實(shí)驗(yàn)室首個(gè)音頻生成模型 ThinkSound 現(xiàn)已正式開源,將打破“靜音畫面”的想象力局限。
ThinkSound 首次將 CoT(Chain-of-Thought,思維鏈)應(yīng)用到音頻生成領(lǐng)域,讓 AI 學(xué)會(huì)一步步“想清楚”畫面事件與聲音之間的關(guān)系,從而實(shí)現(xiàn)高保真、強(qiáng)同步的空間音頻生成 —— 不只是“看圖配音”,而是真正“聽懂畫面”。
為了讓 AI 學(xué)會(huì)“有邏輯地聽”,通義實(shí)驗(yàn)室語音團(tuán)隊(duì)構(gòu)建了首個(gè)支持鏈?zhǔn)酵评淼亩嗄B(tài)音頻數(shù)據(jù)集 AudioCoT。
AudioCoT 融合了來自 VGGSound、AudioSet、AudioCaps、Freesound 等多個(gè)來源的 2531.8 小時(shí)高質(zhì)量樣本。這些數(shù)據(jù)覆蓋了從動(dòng)物鳴叫、機(jī)械運(yùn)轉(zhuǎn)到環(huán)境音效等多種真實(shí)場景,為模型提供了豐富而多樣化的訓(xùn)練基礎(chǔ)。為了確保每條數(shù)據(jù)都能真正支撐 AI 的結(jié)構(gòu)化推理能力,研究團(tuán)隊(duì)設(shè)計(jì)了一套精細(xì)化的數(shù)據(jù)篩選流程,包括多階段自動(dòng)化質(zhì)量過濾和不少于 5% 的人工抽樣校驗(yàn),層層把關(guān)以保障數(shù)據(jù)集的整體質(zhì)量。
在此基礎(chǔ)上,AudioCoT 還特別設(shè)計(jì)了面向交互式編輯的對象級和指令級樣本,以滿足 ThinkSound 在后續(xù)階段對細(xì)化與編輯功能的需求。
ThinkSound 由兩個(gè)關(guān)鍵部分組成:一個(gè)擅長“思考”的多模態(tài)大語言模型(MLLM),以及一個(gè)專注于“聽覺輸出”的統(tǒng)一音頻生成模型。正是這兩個(gè)模塊的配合,使得系統(tǒng)可以按照三個(gè)階段逐步解析畫面內(nèi)容,并最終生成精準(zhǔn)對位的音頻效果 —— 從理解整體畫面,到聚焦具體物體,再到響應(yīng)用戶指令。
據(jù)官方介紹,近年來,盡管端到端視頻到音頻(V2A)生成技術(shù)取得了顯著進(jìn)展,但仍難以真正捕捉畫面中的動(dòng)態(tài)細(xì)節(jié)和空間關(guān)系。像貓頭鷹何時(shí)鳴叫、何時(shí)起飛,樹枝晃動(dòng)時(shí)是否伴隨摩擦聲等視覺-聲學(xué)關(guān)聯(lián),往往被忽視,導(dǎo)致生成的音頻過于通用,甚至與關(guān)鍵視覺事件錯(cuò)位,難以滿足專業(yè)創(chuàng)意場景中對時(shí)序和語義連貫性的嚴(yán)格要求。
這背后的核心問題在于:AI 缺乏對畫面事件的結(jié)構(gòu)化理解,無法像人類音效師那樣,一步步分析、推理、再合成聲音。






京公網(wǎng)安備 11011402013531號