Meta發(fā)布SAM Audio：全球首個(gè)支持“點(diǎn)擊分離聲音”的多模態(tài)音頻模型，一鍵提取吉他聲、人聲或狗叫

IP屬地中國·北京 編輯：唐云澤 Chinaz 時(shí)間：2025-12-18 10:29:11

meta正式推出音頻處理領(lǐng)域的重磅突破——SAM Audio，全球首個(gè)統(tǒng)一的多模態(tài)音頻分離模型。它能讓用戶像“用眼睛聽聲音”一樣，從一段混雜的視頻或音頻中，一鍵提取出任意目標(biāo)聲音:點(diǎn)擊視頻中的吉他手，立刻分離出純凈吉他聲;輸入“狗吠”，自動(dòng)過濾掉整段播客中的犬吠噪音;甚至只需圈定時(shí)間片段，即可精準(zhǔn)剔除干擾音。這項(xiàng)技術(shù)首次將人類自然感知聲音的方式——看、說、指、選——完整復(fù)刻到AI系統(tǒng)中。
SAM Audio的核心是其自研的感知編碼器視聽（PE-AV），被meta稱為模型的“耳朵”。該引擎基于今年4月開源的meta Perception Encoder計(jì)算機(jī)視覺模型擴(kuò)展而來，首次將高級(jí)視覺理解能力與音頻信號(hào)深度融合，實(shí)現(xiàn)跨模態(tài)的聲音定位與分離。
具體而言，SAM Audio支持三種直覺化交互方式，可單獨(dú)或組合使用:
- 文本提示:輸入“人聲演唱”“汽車?yán)取钡日Z義描述，自動(dòng)提取對(duì)應(yīng)聲源;
- 視覺提示:在視頻畫面中點(diǎn)擊發(fā)聲物體（如說話的人、敲鼓的手），系統(tǒng)即分離其音頻;
- 時(shí)間片段提示（行業(yè)首創(chuàng)）:標(biāo)記目標(biāo)聲音出現(xiàn)的時(shí)間區(qū)間(如“3分12秒到3分18秒”)，模型自動(dòng)處理整段錄音中的同類聲音——meta將其類比為《賽博朋克2077》中的“超夢(mèng)”技術(shù)。
為推動(dòng)技術(shù)標(biāo)準(zhǔn)化，meta同步開源兩大關(guān)鍵工具:
- SAM Audio-Bench:首個(gè)基于真實(shí)場景的音頻分離評(píng)測基準(zhǔn);
- SAM Audio Judge:全球首個(gè)專用于音頻分離質(zhì)量的自動(dòng)評(píng)估模型，可量化判斷分離結(jié)果的純凈度與完整性。
此次發(fā)布的PE-AV不僅是SAM Audio的底層引擎，還將賦能meta其他AI產(chǎn)品，包括字幕生成、視頻理解與智能剪輯系統(tǒng)。它的開源，意味著開發(fā)者未來可構(gòu)建自己的“視聽聯(lián)覺”AI應(yīng)用——從自動(dòng)消噪會(huì)議記錄，到沉浸式AR音頻交互，再到無障礙輔助聽覺設(shè)備。
在視頻內(nèi)容爆炸式增長的今天，SAM Audio的出現(xiàn)，標(biāo)志著音頻處理正式進(jìn)入“可交互、可編輯、可理解”的新時(shí)代。過去，我們只能被動(dòng)接收聲音;現(xiàn)在，meta讓我們擁有了“選擇性聆聽”的超能力——而這，或許只是多模態(tài)AI重塑感官體驗(yàn)的第一步。
體驗(yàn)地址：
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

華為云城市峰會(huì)在烏蘭察布召開，當(dāng)?shù)匾盐?7個(gè)數(shù)據(jù)中心項(xiàng)目

火山引擎的「火」，是怎么點(diǎn)起來的

馬斯克：非自動(dòng)駕駛?cè)加蛙嚱K將消亡最終的競爭力是智能化

XREAL 1S發(fā)布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

歐洲頂尖神經(jīng)學(xué)家：中國為科學(xué)家提供“絕佳機(jī)遇”

“元寶AI自動(dòng)回復(fù)太像真人”引質(zhì)疑騰訊為其發(fā)聲

全站最新

華為云城市峰會(huì)在烏蘭察布召開，當(dāng)?shù)匾盐?7個(gè)數(shù)據(jù)中心項(xiàng)目

火山引擎的「火」，是怎么點(diǎn)起來的

馬斯克：非自動(dòng)駕駛?cè)加蛙嚱K將消亡最終的競爭力是智能化

XREAL 1S發(fā)布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

熱門推薦

寒武紀(jì)增資至4.22億

大曉機(jī)器人正式發(fā)布行業(yè)首創(chuàng)的ACE具身研發(fā)范式

賽力斯公布車輛轉(zhuǎn)向防碰撞專利

邢自強(qiáng)：中國在人工智能上的投資十分有效

華為云城市峰會(huì)在烏蘭察布召開，當(dāng)?shù)匾盐?7個(gè)數(shù)據(jù)中心項(xiàng)目

火山引擎的「火」，是怎么點(diǎn)起來的

馬斯克：非自動(dòng)駕駛?cè)加蛙嚱K將消亡最終的競爭力是智能化

XREAL 1S發(fā)布：3299元起，用一副眼鏡把500英寸巨幕“戴”在身上

歐洲頂尖神經(jīng)學(xué)家：中國為科學(xué)家提供“絕佳機(jī)遇”

“元寶AI自動(dòng)回復(fù)太像真人”引質(zhì)疑騰訊為其發(fā)聲

2035年去月球“上班”！青年科學(xué)家蘇萌描繪未來圖景

中國氣象局：到2035年全面建成數(shù)值預(yù)報(bào)與人工智能優(yōu)勢(shì)互補(bǔ)、融合統(tǒng)一的地球系統(tǒng)預(yù)報(bào)體系

電動(dòng)巴士訂單排滿明年，比亞迪計(jì)劃在巴西擴(kuò)建

海南封關(guān)首日iPhone最高可減2140元

中國氣象局：未來十年將在一批關(guān)鍵核心技術(shù)上實(shí)現(xiàn)突破