meta正式推出音頻處理領(lǐng)域的重磅突破——SAM Audio,全球首個(gè)統(tǒng)一的多模態(tài)音頻分離模型。它能讓用戶像“用眼睛聽聲音”一樣,從一段混雜的視頻或音頻中,一鍵提取出任意目標(biāo)聲音:點(diǎn)擊視頻中的吉他手,立刻分離出純凈吉他聲;輸入“狗吠”,自動(dòng)過濾掉整段播客中的犬吠噪音;甚至只需圈定時(shí)間片段,即可精準(zhǔn)剔除干擾音。這項(xiàng)技術(shù)首次將人類自然感知聲音的方式——看、說、指、選——完整復(fù)刻到AI系統(tǒng)中。
SAM Audio的核心是其自研的感知編碼器視聽(PE-AV),被meta稱為模型的“耳朵”。該引擎基于今年4月開源的meta Perception Encoder計(jì)算機(jī)視覺模型擴(kuò)展而來,首次將高級(jí)視覺理解能力與音頻信號(hào)深度融合,實(shí)現(xiàn)跨模態(tài)的聲音定位與分離。
具體而言,SAM Audio支持三種直覺化交互方式,可單獨(dú)或組合使用:
- 文本提示:輸入“人聲演唱”“汽車?yán)取钡日Z義描述,自動(dòng)提取對(duì)應(yīng)聲源;
- 視覺提示:在視頻畫面中點(diǎn)擊發(fā)聲物體(如說話的人、敲鼓的手),系統(tǒng)即分離其音頻;
- 時(shí)間片段提示(行業(yè)首創(chuàng)):標(biāo)記目標(biāo)聲音出現(xiàn)的時(shí)間區(qū)間(如“3分12秒到3分18秒”),模型自動(dòng)處理整段錄音中的同類聲音——meta將其類比為《賽博朋克2077》中的“超夢(mèng)”技術(shù)。
為推動(dòng)技術(shù)標(biāo)準(zhǔn)化,meta同步開源兩大關(guān)鍵工具:
- SAM Audio-Bench:首個(gè)基于真實(shí)場景的音頻分離評(píng)測基準(zhǔn);
- SAM Audio Judge:全球首個(gè)專用于音頻分離質(zhì)量的自動(dòng)評(píng)估模型,可量化判斷分離結(jié)果的純凈度與完整性。
此次發(fā)布的PE-AV不僅是SAM Audio的底層引擎,還將賦能meta其他AI產(chǎn)品,包括字幕生成、視頻理解與智能剪輯系統(tǒng)。它的開源,意味著開發(fā)者未來可構(gòu)建自己的“視聽聯(lián)覺”AI應(yīng)用——從自動(dòng)消噪會(huì)議記錄,到沉浸式AR音頻交互,再到無障礙輔助聽覺設(shè)備。
在視頻內(nèi)容爆炸式增長的今天,SAM Audio的出現(xiàn),標(biāo)志著音頻處理正式進(jìn)入“可交互、可編輯、可理解”的新時(shí)代。過去,我們只能被動(dòng)接收聲音;現(xiàn)在,meta讓我們擁有了“選擇性聆聽”的超能力——而這,或許只是多模態(tài)AI重塑感官體驗(yàn)的第一步。
體驗(yàn)地址:
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio





京公網(wǎng)安備 11011402013531號(hào)