當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

北大VABench：首個(gè)音視頻生成綜合評估基準(zhǔn)

IP屬地中國·北京 科技行者 時(shí)間：2025-12-19 18:18:32

這項(xiàng)由北京大學(xué)、螞蟻集團(tuán)、中科院自動化所以及華中科技大學(xué)聯(lián)合完成的研究發(fā)表于2025年12月，論文編號為arXiv:2512.09299v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當(dāng)你打開手機(jī)觀看短視頻時(shí)，是否曾經(jīng)驚嘆于那些栩栩如生的人物配音和背景音效？現(xiàn)在的人工智能已經(jīng)能夠生成令人驚嘆的視頻內(nèi)容，但這些視頻中的聲音和畫面是否真正匹配，一直是個(gè)讓研究者頭疼的問題。就好比一個(gè)廚師做菜，雖然能做出色香味俱全的菜肴，但如何準(zhǔn)確評判這道菜是否真正達(dá)到了完美的平衡，卻缺少一套科學(xué)的標(biāo)準(zhǔn)。
以往的視頻生成技術(shù)主要關(guān)注畫面質(zhì)量，就像只看菜的外觀是否精美，卻忽略了味道是否協(xié)調(diào)。但現(xiàn)實(shí)世界中，我們的感官體驗(yàn)是多維度的——當(dāng)你看到瀑布奔流時(shí)，耳邊應(yīng)該響起水聲；當(dāng)你看到吉他手撥弦時(shí)，音樂應(yīng)該與手指動作完全同步。這種音畫同步的自然體驗(yàn)，正是現(xiàn)在AI技術(shù)努力追求的目標(biāo)。
然而，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問題：雖然現(xiàn)在已經(jīng)出現(xiàn)了Sora 2、Veo 3、萬象2.5等能夠同時(shí)生成音頻和視頻的先進(jìn)模型，但學(xué)術(shù)界缺乏一套全面、科學(xué)的評估體系來判斷這些模型的表現(xiàn)。這就像擁有了世界頂級的廚師，卻沒有專業(yè)的美食評委來公正評判他們的作品。
為了解決這個(gè)問題，研究團(tuán)隊(duì)開發(fā)了VABench——一個(gè)專門針對音視頻同步生成的綜合評估基準(zhǔn)。這套系統(tǒng)就像是為AI視頻生成領(lǐng)域量身定制的"全能考試"，不僅要測試AI能否生成清晰的畫面和悅耳的聲音，更要檢驗(yàn)它們是否能像真實(shí)世界一樣自然協(xié)調(diào)。
研究團(tuán)隊(duì)的創(chuàng)新之處在于，他們不僅僅關(guān)注技術(shù)指標(biāo)，更從人類感知的角度出發(fā)，設(shè)計(jì)了一套既科學(xué)又貼近實(shí)際的評估方法。這套方法涵蓋了從簡單的文字轉(zhuǎn)視頻，到復(fù)雜的圖像轉(zhuǎn)視頻，再到立體聲音頻生成等多個(gè)維度，確保能夠全方位地考察AI模型的能力。
一、音視頻生成的三大挑戰(zhàn)：從單一到協(xié)調(diào)的技術(shù)跨越
當(dāng)我們欣賞一部電影時(shí)，很少會刻意去思考聲音和畫面是如何完美融合的。但對于AI來說，要實(shí)現(xiàn)這種看似自然的協(xié)調(diào)，卻需要解決三個(gè)層次遞增的技術(shù)難題。
第一個(gè)挑戰(zhàn)是文字轉(zhuǎn)音視頻生成。這就像讓一個(gè)從未見過外面世界的人僅憑文字描述就要畫出一幅聲畫并茂的作品。比如，當(dāng)輸入"清晨鳥兒在枝頭歡快歌唱"這樣的文字時(shí)，AI不僅要生成鳥兒在枝頭的畫面，還要配上相應(yīng)的鳥鳴聲，更重要的是，鳥兒的嘴部動作要與鳥鳴的節(jié)拍完全吻合。這種從抽象文字到具體多媒體內(nèi)容的轉(zhuǎn)換，需要AI具備超強(qiáng)的想象力和創(chuàng)造力。
第二個(gè)挑戰(zhàn)是圖像轉(zhuǎn)音視頻生成。這個(gè)過程可以理解為給一張靜態(tài)照片"賦予生命"。假設(shè)你有一張海浪拍打礁石的照片，AI需要讓這張照片動起來，不僅要讓海浪真實(shí)地翻滾，還要配上相應(yīng)的海浪聲。這個(gè)過程比文字轉(zhuǎn)換更加復(fù)雜，因?yàn)锳I必須從有限的視覺信息中推斷出合理的動態(tài)過程和聲音特征，就像偵探通過現(xiàn)場照片重構(gòu)犯罪現(xiàn)場一樣。
第三個(gè)挑戰(zhàn)是立體聲音頻生成。在真實(shí)世界中，我們的雙耳能夠感知聲音的方向和距離。當(dāng)飛機(jī)從左側(cè)飛過時(shí)，我們能清楚地感受到聲音從左向右移動。這種空間聽覺體驗(yàn)對于營造沉浸感至關(guān)重要。AI需要學(xué)會生成這種具有空間感的立體聲，讓用戶通過耳機(jī)就能感受到仿佛身臨其境的音響效果。
研究團(tuán)隊(duì)在設(shè)計(jì)VABench時(shí)，特別針對這三個(gè)挑戰(zhàn)設(shè)置了相應(yīng)的測試場景。他們收集了778個(gè)文字轉(zhuǎn)視頻樣本和521個(gè)圖像轉(zhuǎn)視頻樣本，涵蓋了從簡單的動物叫聲到復(fù)雜的城市環(huán)境等各種場景。為了測試立體聲生成能力，他們還設(shè)計(jì)了116個(gè)專門的立體聲測試樣本，每個(gè)樣本都明確指定了左右聲道應(yīng)該呈現(xiàn)的不同聲音內(nèi)容。
有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有的AI模型在處理這三個(gè)挑戰(zhàn)時(shí)表現(xiàn)差異巨大。一些模型在生成單一音頻或視頻方面表現(xiàn)出色，但在音畫同步方面卻差強(qiáng)人意，就像一個(gè)優(yōu)秀的獨(dú)唱演員在合唱時(shí)卻找不準(zhǔn)拍子。而另一些模型雖然能夠較好地實(shí)現(xiàn)同步，但生成的內(nèi)容質(zhì)量卻有待提高。
更令人意外的是，在立體聲生成方面，幾乎所有現(xiàn)有模型都表現(xiàn)不佳。大多數(shù)模型生成的所謂"立體聲"實(shí)際上只是單聲道的復(fù)制，缺乏真正的空間感。這個(gè)發(fā)現(xiàn)提醒研究者，AI在音頻空間感知方面還有很大的提升空間。
二、七大內(nèi)容類別：從動物世界到虛擬空間的全景測試
為了全面測試AI模型的能力，研究團(tuán)隊(duì)精心設(shè)計(jì)了七個(gè)內(nèi)容類別，這些類別就像是一個(gè)完整的世界地圖，涵蓋了從最基礎(chǔ)的自然聲音到最復(fù)雜的虛擬場景。
動物類別是最基礎(chǔ)也是最有趣的測試領(lǐng)域。每種動物都有其獨(dú)特的聲音特征和行為模式。當(dāng)AI生成一只獅子咆哮的畫面時(shí)，不僅要確保獅子的口型與咆哮聲匹配，還要體現(xiàn)出獅子咆哮時(shí)的威嚴(yán)姿態(tài)。研究團(tuán)隊(duì)發(fā)現(xiàn)，AI在處理不同動物時(shí)表現(xiàn)差異顯著，對于常見的貓狗等寵物，AI的表現(xiàn)相對較好，但對于一些稀有動物或昆蟲的聲音，準(zhǔn)確度就大打折扣。
人類聲音類別是技術(shù)難度最高的測試項(xiàng)目。這個(gè)類別又分為語言類和非語言類兩個(gè)子類別。語言類包括正常說話、唱歌等，需要實(shí)現(xiàn)精確的唇語同步；非語言類則包括哭泣、笑聲、嘆息等情感表達(dá)。研究團(tuán)隊(duì)發(fā)現(xiàn)，幾乎所有AI模型在人類聲音處理方面都存在明顯短板，特別是在情感表達(dá)的細(xì)膩程度上還遠(yuǎn)不如人類演員。
音樂類別測試AI對結(jié)構(gòu)化聲音的理解能力。當(dāng)生成一個(gè)鋼琴演奏的場景時(shí)，AI不僅要讓琴鍵的按壓動作與音樂節(jié)拍吻合，還要體現(xiàn)出演奏者的情感投入。有趣的是，AI在處理音樂類內(nèi)容時(shí)表現(xiàn)相對較好，可能是因?yàn)橐魳酚兄鄬η逦慕Y(jié)構(gòu)和規(guī)律，更容易被AI學(xué)習(xí)和模仿。
環(huán)境類別涵蓋了自然、城市和室內(nèi)三大場景類型。海浪聲配合海岸畫面、車流聲配合城市街道、咖啡機(jī)聲配合咖啡廳場景等，這些看似簡單的組合實(shí)際上需要AI對不同環(huán)境的深度理解。研究顯示，AI在處理自然環(huán)境聲音時(shí)表現(xiàn)最佳，而在復(fù)雜的城市環(huán)境中容易出現(xiàn)聲音混亂的問題。
同步物理聲音類別是對AI物理常識的直接考驗(yàn)。當(dāng)一個(gè)皮球掉落時(shí)，撞擊地面的聲音應(yīng)該與皮球接觸地面的瞬間完全同步；當(dāng)雨滴打在不同材質(zhì)表面時(shí)，應(yīng)該產(chǎn)生相應(yīng)的聲音差異。這個(gè)類別要求AI不僅要理解物理規(guī)律，還要將這種理解準(zhǔn)確地體現(xiàn)在音畫同步上。
復(fù)雜場景類別是對AI綜合能力的終極考驗(yàn)。這個(gè)類別包括多重音源、主觀感受、世界知識、象征性聯(lián)想和隱藏音源等五個(gè)維度。比如，在一個(gè)繁忙的咖啡廳場景中，AI需要同時(shí)處理對話聲、咖啡機(jī)聲、背景音樂等多種聲音，并合理地分配它們的音量和空間位置。這種復(fù)雜場景的處理能力直接反映了AI的智能水平。
虛擬世界類別是最具創(chuàng)意挑戰(zhàn)的測試領(lǐng)域。在這個(gè)類別中，AI需要為超越現(xiàn)實(shí)物理規(guī)律的場景創(chuàng)造合理的音效。比如，魔法師施法時(shí)應(yīng)該配什么樣的聲音？飛龍吐火時(shí)應(yīng)該是怎樣的音效？這些都沒有現(xiàn)實(shí)世界的直接參照，完全依賴AI的創(chuàng)意能力和對虛擬世界邏輯的理解。
三、十五維度評估體系：科學(xué)與藝術(shù)的完美結(jié)合
為了公正而全面地評估AI模型的表現(xiàn)，研究團(tuán)隊(duì)開發(fā)了一套包含15個(gè)維度的評估體系。這套體系就像是一個(gè)精密的儀器，能夠從不同角度測量AI生成內(nèi)容的質(zhì)量。
評估體系分為兩大類：專家模型評估和多模態(tài)語言模型評估。這種設(shè)計(jì)就像是請來了兩種不同類型的評委——一類是專精某個(gè)領(lǐng)域的技術(shù)專家，另一類是具有綜合判斷能力的通才評委。
專家模型評估主要關(guān)注可以量化的技術(shù)指標(biāo)。在音頻質(zhì)量方面，系統(tǒng)會檢測語音的清晰度、自然度和美學(xué)品質(zhì)。就像專業(yè)的錄音師能夠精確判斷錄音質(zhì)量一樣，這些專家模型能夠客觀地評估音頻的技術(shù)水準(zhǔn)。語音清晰度測試主要針對人類語言內(nèi)容，檢查是否有背景噪音干擾和發(fā)音是否清晰；語音自然度則評估合成語音是否聽起來像真人說話；音頻美學(xué)評估則從娛樂性、實(shí)用性、制作復(fù)雜度和制作質(zhì)量四個(gè)角度進(jìn)行綜合評分。
跨模態(tài)語義對齊是評估系統(tǒng)的核心技術(shù)指標(biāo)。這個(gè)維度檢查文字描述、視頻內(nèi)容和音頻內(nèi)容是否在語義上保持一致。比如，當(dāng)文字描述是"雷雨夜"時(shí)，視頻應(yīng)該顯示閃電和烏云，音頻應(yīng)該有雷聲和雨聲，三者必須在主題上高度統(tǒng)一。系統(tǒng)通過計(jì)算不同模態(tài)之間的語義相似度來量化這種對齊程度。
時(shí)間同步評估是最具挑戰(zhàn)性的技術(shù)測試。系統(tǒng)會精確測量音頻事件與視頻事件之間的時(shí)間偏差，特別是唇語同步的準(zhǔn)確性。這個(gè)過程需要先檢測視頻中是否存在說話的人臉，然后分析嘴唇動作與語音的匹配程度。研究團(tuán)隊(duì)使用了專門的同步評估模型，能夠檢測出毫秒級的時(shí)間偏差。
多模態(tài)語言模型評估則關(guān)注更加主觀和綜合的質(zhì)量判斷。這類評估就像請來了一批具有藝術(shù)鑒賞力的評委，他們不僅關(guān)注技術(shù)指標(biāo)，更重視整體的感受和體驗(yàn)。
音視頻協(xié)調(diào)性評估檢查音頻和視頻是否給人以和諧統(tǒng)一的感覺。這個(gè)維度不僅考慮技術(shù)同步，還關(guān)注情感一致性。比如，悲傷的畫面配上歡快的音樂就會被判定為協(xié)調(diào)性差，即使在技術(shù)上沒有明顯錯(cuò)誤。
藝術(shù)性評估關(guān)注生成內(nèi)容的美學(xué)價(jià)值和創(chuàng)意表達(dá)。這個(gè)維度考察音視頻融合是否產(chǎn)生了超越單純技術(shù)指標(biāo)的藝術(shù)效果，是否能夠觸動觀看者的情感，是否體現(xiàn)了獨(dú)特的創(chuàng)意理念。
表現(xiàn)力評估關(guān)注音頻對視覺內(nèi)容的敘事支持能力。優(yōu)秀的音視頻作品中，聲音不僅僅是畫面的附屬品，更是情感表達(dá)和故事敘述的重要工具。這個(gè)維度評估音頻是否有效地增強(qiáng)了視覺內(nèi)容的表現(xiàn)力，是否幫助觀眾更好地理解和感受作品想要傳達(dá)的信息。
真實(shí)性評估則分為音頻真實(shí)性和視覺真實(shí)性兩個(gè)子維度。音頻真實(shí)性檢查聲音是否符合物理規(guī)律，比如音量是否隨距離合理變化，不同材質(zhì)的撞擊聲是否符合真實(shí)世界的聲學(xué)特性。視覺真實(shí)性則評估畫面是否遵循物理法則，光影效果是否合理，物體運(yùn)動是否符合力學(xué)原理。
細(xì)粒度問答評估是最具創(chuàng)新性的評估方法。系統(tǒng)會針對每個(gè)測試樣本生成3到7個(gè)具體的問題，涵蓋聲音和畫面的各種細(xì)節(jié)。比如，對于一個(gè)鋼琴演奏的視頻，可能會問"演奏者的手指動作是否與音符節(jié)拍一致？"、"鋼琴的音色是否明亮清晰？"、"演奏者的表情是否與音樂情緒匹配？"這種評估方法能夠深入挖掘AI生成內(nèi)容的具體優(yōu)缺點(diǎn)。
四、立體聲空間音頻：讓聽覺體驗(yàn)真正立體化
在所有的評估維度中，立體聲音頻生成能力的測試最為特殊，也最能體現(xiàn)AI技術(shù)的先進(jìn)程度。這個(gè)測試就像是檢驗(yàn)AI是否具備了人類的空間聽覺能力。
人類的雙耳系統(tǒng)就像是一個(gè)精密的聲音定位雷達(dá)。當(dāng)聲音從不同方向傳來時(shí)，由于到達(dá)兩只耳朵的時(shí)間差和音量差，大腦能夠準(zhǔn)確判斷聲源的位置。這種能力讓我們在復(fù)雜的聲音環(huán)境中也能準(zhǔn)確定位，比如在嘈雜的聚會中依然能聽清楚特定人的說話聲。
研究團(tuán)隊(duì)設(shè)計(jì)了116個(gè)專門的立體聲測試樣本，每個(gè)樣本都明確指定了左右聲道應(yīng)該呈現(xiàn)的不同內(nèi)容。比如，一個(gè)測試樣本可能要求"左聲道播放海浪聲，右聲道播放海鷗叫聲"，AI需要生成相應(yīng)的立體聲視頻，讓觀看者通過耳機(jī)能夠清楚地感受到聲音的空間分布。
立體聲評估包含九個(gè)核心聲學(xué)指標(biāo)，這些指標(biāo)構(gòu)成了一個(gè)完整的空間音頻質(zhì)量評估體系。空間成像質(zhì)量主要評估聲音在空間中的分布是否合理，包括立體聲寬度、成像穩(wěn)定性、電平穩(wěn)定性等。立體聲寬度測量的是聲場的開闊程度，優(yōu)秀的立體聲應(yīng)該能夠營造出寬廣的聽音環(huán)境；成像穩(wěn)定性檢查聲源位置是否穩(wěn)定，避免聲音在左右聲道間無規(guī)律地跳動；電平穩(wěn)定性則確保左右聲道的音量平衡合理。
信號完整性和兼容性主要關(guān)注技術(shù)穩(wěn)定性和跨設(shè)備兼容性。相位一致性檢查左右聲道的相位關(guān)系是否正確，避免出現(xiàn)相位抵消導(dǎo)致的音質(zhì)下降；單聲道兼容性測試確保立體聲在單聲道設(shè)備上播放時(shí)不會出現(xiàn)嚴(yán)重的音質(zhì)損失；方向一致性則驗(yàn)證聲音的空間定位是否準(zhǔn)確。
研究結(jié)果顯示，目前的AI模型在立體聲生成方面普遍表現(xiàn)不佳。大多數(shù)模型生成的所謂"立體聲"實(shí)際上只是將單聲道音頻簡單復(fù)制到兩個(gè)聲道，缺乏真正的空間分離效果。即使在某些表現(xiàn)較好的模型中，立體聲效果也主要體現(xiàn)為簡單的左右音量分配，而不是語義層面的空間布局。
這個(gè)發(fā)現(xiàn)揭示了一個(gè)重要問題：當(dāng)前的AI模型雖然在音視頻生成方面已經(jīng)取得了顯著進(jìn)步，但在空間音頻理解方面仍處于起步階段。這就像是一個(gè)畫家雖然能畫出精美的平面作品，但對于立體透視的掌握還不夠嫻熟。
五、模型大比拼：端到端訓(xùn)練 vs 分步組裝的技術(shù)路線之爭
研究團(tuán)隊(duì)測試了多個(gè)當(dāng)前最先進(jìn)的AI模型，這些模型代表了兩種不同的技術(shù)路線。第一種是端到端的音視頻聯(lián)合生成模型，如Veo3、Sora2和萬象2.5；第二種是分步式的視頻加音頻組合模型，如Seedance配合MMAudio、Kling配合ThinkSound等組合。
這兩種技術(shù)路線就像是兩種不同的烹飪方法：一種是一鍋燉，所有食材從一開始就放在一起慢慢烹飪，各種味道能夠充分融合；另一種是分別烹飪，最后再組合裝盤，每個(gè)部分都能精工細(xì)作，但融合度可能稍遜一籌。
在端到端模型中，Veo3表現(xiàn)最為均衡，特別是在音頻質(zhì)量和跨模態(tài)語義對齊方面表現(xiàn)突出。這個(gè)模型就像是一個(gè)全能型選手，雖然在某些單項(xiàng)上不是最強(qiáng)，但綜合實(shí)力最為均衡。Veo3在動物聲音處理方面表現(xiàn)最佳，在復(fù)雜場景的音視頻協(xié)調(diào)上也有不錯(cuò)的表現(xiàn)。
Sora2在視覺真實(shí)性方面表現(xiàn)最好，特別是在人物表情和物理運(yùn)動的真實(shí)性上有著明顯優(yōu)勢。但是，Sora2在音頻美學(xué)方面稍顯不足，生成的音頻有時(shí)聽起來比較機(jī)械化，缺乏自然的變化。
萬象2.5的最大優(yōu)勢在于音視頻同步，特別是在唇語同步方面表現(xiàn)最佳。當(dāng)生成人物說話的場景時(shí)，萬象2.5能夠?qū)崿F(xiàn)幾乎完美的口型匹配。然而，這個(gè)模型在跨模態(tài)語義對齊方面稍有不足，有時(shí)音頻內(nèi)容與文字描述的匹配度不夠高。
在分步式模型組合中，表現(xiàn)最好的是Kling配合MMAudio的組合。Kling作為視頻生成模型，在視覺質(zhì)量方面表現(xiàn)優(yōu)異，而MMAudio在音頻生成方面有著不錯(cuò)的表現(xiàn)。這個(gè)組合的優(yōu)勢在于可以針對視頻和音頻分別進(jìn)行優(yōu)化，在某些細(xì)分領(lǐng)域甚至能夠超越端到端模型。
有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)，端到端模型在需要高度音視頻協(xié)調(diào)的任務(wù)中表現(xiàn)明顯更好，特別是在人類語音和復(fù)雜場景處理方面。這個(gè)發(fā)現(xiàn)證實(shí)了聯(lián)合訓(xùn)練的重要性——當(dāng)音頻和視頻從訓(xùn)練階段就開始協(xié)同學(xué)習(xí)時(shí)，它們之間的配合會更加默契。
然而，分步式模型在某些特定領(lǐng)域表現(xiàn)出了獨(dú)特優(yōu)勢。比如，在音樂生成方面，專門的音頻模型往往能夠產(chǎn)生更高質(zhì)量的音樂內(nèi)容。這就像是請專業(yè)的音樂家來配樂，效果可能比多面手更加出色。
更令人意外的是，在虛擬世界內(nèi)容生成方面，所有模型的表現(xiàn)都相對較差。這個(gè)類別沒有現(xiàn)實(shí)世界的直接參照，完全依賴模型的創(chuàng)意能力和邏輯推理。這個(gè)發(fā)現(xiàn)提醒研究者，雖然AI在模仿現(xiàn)實(shí)世界方面已經(jīng)相當(dāng)出色，但在創(chuàng)造性想象方面還有很大的提升空間。
六、音畫同步的物理挑戰(zhàn)：多普勒效應(yīng)與雷電先后的智能考驗(yàn)
為了深入了解AI模型對物理規(guī)律的理解程度，研究團(tuán)隊(duì)設(shè)計(jì)了一系列特殊的測試場景，其中最具挑戰(zhàn)性的是多普勒效應(yīng)和雷電順序的模擬。
多普勒效應(yīng)是日常生活中常見的物理現(xiàn)象。當(dāng)救護(hù)車從遠(yuǎn)處駛來再遠(yuǎn)去時(shí)，我們會聽到聲音從尖銳逐漸變得低沉，這是因?yàn)槁曉磁c接收者之間的相對運(yùn)動導(dǎo)致頻率發(fā)生變化。對于AI來說，要準(zhǔn)確模擬這種效應(yīng)，不僅需要理解物理原理，還要將這種理解準(zhǔn)確地體現(xiàn)在生成的音視頻內(nèi)容中。
研究團(tuán)隊(duì)設(shè)計(jì)了飛機(jī)高速飛過的測試場景。在這個(gè)場景中，AI需要生成一架飛機(jī)從畫面左側(cè)飛向右側(cè)的視頻，同時(shí)配上相應(yīng)的引擎聲。最關(guān)鍵的是，引擎聲必須體現(xiàn)出明顯的多普勒效應(yīng)——當(dāng)飛機(jī)接近時(shí)音調(diào)較高，飛過后音調(diào)逐漸降低。
測試結(jié)果顯示，不同模型的表現(xiàn)差異顯著。Veo3的表現(xiàn)最為出色，生成的頻譜圖清楚地顯示了聲音頻率的平滑下降軌跡，準(zhǔn)確模擬了飛機(jī)引擎聲的多普勒變化。這種表現(xiàn)表明Veo3不僅學(xué)會了多普勒效應(yīng)的表象，更可能理解了其背后的物理機(jī)制。
萬象2.5雖然也能生成引擎聲的衰減效果，但多普勒頻移特征不如Veo3明顯。這個(gè)模型似乎更側(cè)重于音量的變化，而對頻率變化的處理相對粗糙。Sora2的表現(xiàn)則更加接近人類的感知直覺——考慮到飛機(jī)的高度和距離，其生成的引擎聲頻率相對較低，多普勒效應(yīng)也相對溫和，這種處理方式在感知上更加合理。
雷電場景的測試更加復(fù)雜，因?yàn)樗婕暗焦馑俸吐曀俨町惖捏w現(xiàn)。在真實(shí)世界中，我們總是先看到閃電，然后才聽到雷聲，這是因?yàn)楣獾膫鞑ニ俣冗h(yuǎn)快于聲音。AI模型需要理解這個(gè)物理常識，并在生成內(nèi)容中準(zhǔn)確體現(xiàn)。
研究團(tuán)隊(duì)設(shè)計(jì)了漆黑夜晚中遠(yuǎn)方閃電的場景測試。AI需要生成閃電劃過天空的畫面，同時(shí)配上相應(yīng)的雷聲。關(guān)鍵在于，雷聲必須在閃電出現(xiàn)之后才開始，而且聲音的強(qiáng)度和持續(xù)時(shí)間要與閃電的強(qiáng)度相匹配。
通過頻譜分析，研究團(tuán)隊(duì)發(fā)現(xiàn)Veo3、萬象2.5和Kling配合MMAudio的組合都較好地遵循了光聲傳播的物理規(guī)律。在這些模型生成的內(nèi)容中，雷聲確實(shí)在閃電出現(xiàn)后才開始，體現(xiàn)了AI對基本物理常識的掌握。
然而，更細(xì)致的分析顯示，不同模型對雷聲特征的處理存在差異。萬象2.5生成的雷聲相對短促，衰減較快，更符合距離較近的雷電特征。Veo3的雷聲則更加低沉持久，似乎模擬的是遠(yuǎn)距離雷電的聲音特征。Kling配合MMAudio生成的雷聲在時(shí)間分布上最為合理，既體現(xiàn)了主要的雷鳴，也包含了后續(xù)的回聲效果。
這些測試結(jié)果表明，當(dāng)前的AI模型已經(jīng)開始具備對基本物理規(guī)律的理解能力，但在精確度和一致性方面還有提升空間。更重要的是，不同模型似乎有著不同的"物理常識偏好"，這種差異可能源于訓(xùn)練數(shù)據(jù)的不同或者模型架構(gòu)的特殊性。
七、立體聲空間定位：當(dāng)AI學(xué)會"用耳朵看世界"
在所有的測試中，立體聲空間定位能力的評估最能體現(xiàn)AI技術(shù)的前沿水平。這項(xiàng)測試要求AI不僅能生成高質(zhì)量的音頻和視頻，還要具備人類一樣的空間聽覺能力。
研究團(tuán)隊(duì)設(shè)計(jì)了海岸場景的立體聲測試。在這個(gè)場景中，左聲道應(yīng)該播放海浪拍擊巖石的聲音，右聲道應(yīng)該播放海鷗的叫聲和輕柔的海風(fēng)聲。AI需要生成相應(yīng)的立體聲視頻，讓觀看者通過耳機(jī)能夠清楚地感受到聲音的空間分布——仿佛海浪就在左邊，而海鷗在右邊飛翔。
測試結(jié)果顯示，現(xiàn)有AI模型在這個(gè)任務(wù)上的表現(xiàn)差異巨大。Veo3在立體聲生成方面表現(xiàn)最好，能夠產(chǎn)生明顯的左右聲道差異。通過波形分析可以看出，左右聲道確實(shí)包含不同的聲音內(nèi)容，而且在某些片段中還能觀察到與視覺運(yùn)動相對應(yīng)的空間音頻變化。
然而，即使是表現(xiàn)最好的Veo3，其立體聲效果也主要體現(xiàn)在音量分配上，而不是真正的語義空間分離。換句話說，AI更像是在模仿立體聲的表面特征，而不是真正理解空間音頻的本質(zhì)。這就像一個(gè)初學(xué)者雖然知道立體聲應(yīng)該有左右差異，但不知道如何根據(jù)場景的實(shí)際空間布局來安排聲音。
Sora2在立體聲方面的表現(xiàn)相對較差，生成的左右聲道幾乎完全相同，這意味著用戶聽到的實(shí)際上是單聲道音頻。萬象2.5的表現(xiàn)更接近真正的單聲道復(fù)制，立體聲效果微乎其微。
更有趣的發(fā)現(xiàn)是，當(dāng)研究團(tuán)隊(duì)分析AI模型偶然生成的優(yōu)質(zhì)立體聲片段時(shí)，發(fā)現(xiàn)這些效果往往出現(xiàn)在特定類型的場景中。比如，在賽車場景中，Veo3能夠生成隨汽車運(yùn)動而移動的引擎聲，實(shí)現(xiàn)了基本的空間音頻跟隨效果。在雷雨場景中，Sora2偶爾能夠生成左右不同強(qiáng)度的雷聲，營造出風(fēng)雨的空間感。
這些發(fā)現(xiàn)表明，當(dāng)前的AI模型可能在訓(xùn)練數(shù)據(jù)中包含了一些立體聲或空間音頻的信息，但這種能力還很不穩(wěn)定，更像是偶然的巧合而不是系統(tǒng)性的掌握。這提醒研究者，要讓AI真正掌握空間音頻生成能力，可能需要在訓(xùn)練階段就專門引入空間聽覺的相關(guān)知識。
八、人類評估驗(yàn)證：AI評分與人類感受的對比實(shí)驗(yàn)
為了確保VABench評估系統(tǒng)的有效性，研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的人類評估驗(yàn)證實(shí)驗(yàn)。他們邀請了六名專業(yè)評估人員對代表性視頻樣本進(jìn)行評分，然后將這些人類評分與VABench系統(tǒng)的評分進(jìn)行對比分析。
這個(gè)驗(yàn)證過程就像是為新開發(fā)的考試系統(tǒng)尋找權(quán)威認(rèn)證。如果一套考試系統(tǒng)的評分結(jié)果與資深教師的判斷高度一致，那么這套系統(tǒng)就可以被認(rèn)為是可靠和有效的。
驗(yàn)證實(shí)驗(yàn)選擇了三個(gè)核心維度：語義一致性、時(shí)間同步性和真實(shí)性。這三個(gè)維度分別對應(yīng)VABench系統(tǒng)中的多個(gè)具體指標(biāo)。語義一致性包括文字-視頻對齊、文字-音頻對齊和音頻-視頻對齊；時(shí)間同步性主要指音視頻的時(shí)間匹配程度；真實(shí)性則包括音頻真實(shí)性和視覺真實(shí)性。
實(shí)驗(yàn)結(jié)果令人鼓舞。在語義一致性方面，人類評估與VABench評分的相關(guān)性達(dá)到了0.89，這個(gè)數(shù)值表明兩者的判斷高度一致。在時(shí)間同步性方面，相關(guān)性為0.85，同樣顯示了良好的一致性。真實(shí)性評估的相關(guān)性稍低，為0.79，但仍然達(dá)到了統(tǒng)計(jì)學(xué)上的強(qiáng)相關(guān)標(biāo)準(zhǔn)。
更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)人類評估者與AI評估系統(tǒng)在某些方面的"意見分歧"往往揭示了評估的深層問題。比如，有些視頻在技術(shù)指標(biāo)上表現(xiàn)完美，但人類評估者認(rèn)為缺乏藝術(shù)感染力；而另一些視頻雖然在技術(shù)上有瑕疵，但人類評估者卻給出了較高的整體評分。
這種分歧提醒研究者，評估AI生成內(nèi)容不能僅僅依賴技術(shù)指標(biāo)，還需要考慮人類的主觀感受和審美標(biāo)準(zhǔn)。VABench系統(tǒng)通過引入多模態(tài)語言模型評估，在一定程度上彌補(bǔ)了純技術(shù)評估的不足，但如何更好地平衡客觀指標(biāo)與主觀感受，仍然是一個(gè)需要持續(xù)探索的問題。
九、不同內(nèi)容類別的表現(xiàn)分析：AI的強(qiáng)項(xiàng)與弱點(diǎn)全景圖
通過對七個(gè)內(nèi)容類別的詳細(xì)分析，研究團(tuán)隊(duì)繪制出了當(dāng)前AI模型能力的全景圖。這份圖譜就像是AI模型的體檢報(bào)告，清楚地顯示了每個(gè)模型在不同領(lǐng)域的健康狀況。
在動物類別中，所有模型都表現(xiàn)相對較好，這可能是因?yàn)閯游锫曇艉托袨樵谟?xùn)練數(shù)據(jù)中比較豐富，而且相對容易學(xué)習(xí)。Veo3在這個(gè)類別中表現(xiàn)最佳，特別是在鳥類叫聲和大型哺乳動物聲音的處理上。有趣的是，AI模型對常見寵物的處理明顯好于對野生動物的處理，這反映了訓(xùn)練數(shù)據(jù)分布的偏向性。
人類聲音類別是所有模型的共同弱點(diǎn)。無論是語言類還是非語言類的人類聲音，AI模型的表現(xiàn)都不盡如意。這個(gè)發(fā)現(xiàn)特別值得關(guān)注，因?yàn)槿祟惵曇舻奶幚碣|(zhì)量直接影響到AI應(yīng)用的用戶體驗(yàn)。分析顯示，AI在處理標(biāo)準(zhǔn)語音時(shí)表現(xiàn)相對較好，但在處理帶有強(qiáng)烈情感色彩的聲音時(shí)就顯得力不從心。
音樂類別是一個(gè)有趣的例外。幾乎所有AI模型在這個(gè)類別中都表現(xiàn)不錯(cuò)，甚至某些指標(biāo)超過了其他類別。這可能是因?yàn)橐魳酚兄鄬η逦慕Y(jié)構(gòu)和規(guī)律，更容易被AI學(xué)習(xí)和模仿。ThinkSound模型在音樂生成方面表現(xiàn)尤為突出，生成的音樂質(zhì)量接近專業(yè)水準(zhǔn)。
環(huán)境聲音類別的表現(xiàn)呈現(xiàn)出有趣的分化。AI模型在處理自然環(huán)境聲音時(shí)表現(xiàn)最佳，對城市環(huán)境的處理次之，而室內(nèi)環(huán)境的處理相對較差。這種差異可能反映了不同環(huán)境在訓(xùn)練數(shù)據(jù)中的分布差異，也可能與不同環(huán)境聲音復(fù)雜度的差異有關(guān)。
同步物理聲音類別是對AI物理理解能力的直接考驗(yàn)。結(jié)果顯示，AI模型雖然能夠生成基本合理的物理聲音，但在精確的時(shí)間同步和物理特性模擬方面還有不足。比如，當(dāng)模擬不同材質(zhì)的碰撞聲時(shí)，AI往往無法準(zhǔn)確體現(xiàn)材質(zhì)差異。
復(fù)雜場景類別是技術(shù)挑戰(zhàn)最大的領(lǐng)域。這個(gè)類別要求AI同時(shí)處理多種聲音源、理解復(fù)雜的空間關(guān)系、掌握豐富的世界知識。不出所料，所有模型在這個(gè)類別的表現(xiàn)都相對較差，但端到端訓(xùn)練的模型明顯優(yōu)于分步組裝的模型，這再次證明了聯(lián)合訓(xùn)練的重要性。
虛擬世界類別的表現(xiàn)最為特殊。由于沒有現(xiàn)實(shí)世界的直接參照，這個(gè)類別完全依賴AI的創(chuàng)意能力和想象力。有趣的是，萬象2.5在這個(gè)類別中表現(xiàn)最好，可能是因?yàn)槠溆?xùn)練數(shù)據(jù)包含了更多的游戲和動畫內(nèi)容。
十、技術(shù)發(fā)展趨勢與未來展望：AI音視頻生成的下一站
基于VABench的全面測試結(jié)果，研究團(tuán)隊(duì)對AI音視頻生成技術(shù)的發(fā)展趨勢進(jìn)行了深入分析。這些分析就像是為整個(gè)行業(yè)繪制的路線圖，指出了未來技術(shù)發(fā)展的方向和重點(diǎn)。
首先，端到端聯(lián)合訓(xùn)練的優(yōu)勢越來越明顯。在幾乎所有需要高度音視頻協(xié)調(diào)的任務(wù)中，聯(lián)合訓(xùn)練的模型都表現(xiàn)出了明顯的優(yōu)勢。這種趨勢表明，未來的AI音視頻生成技術(shù)將更加注重模態(tài)間的深度融合，而不是簡單的后期組合。這就像是從"拼裝玩具"向"一體成型"的技術(shù)演進(jìn)。
其次，物理常識的重要性日益凸顯。測試結(jié)果表明，AI模型對物理規(guī)律的理解程度直接影響生成內(nèi)容的真實(shí)性和可信度。未來的技術(shù)發(fā)展需要更加重視物理知識的集成，讓AI不僅能夠模仿表面現(xiàn)象，更能理解其背后的物理機(jī)制。
空間音頻技術(shù)是一個(gè)亟待突破的領(lǐng)域。當(dāng)前幾乎所有模型在立體聲生成方面都表現(xiàn)不佳，但隨著虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)的發(fā)展，對空間音頻的需求將會急劇增長。研究團(tuán)隊(duì)預(yù)測，空間音頻生成將成為下一階段技術(shù)競爭的焦點(diǎn)。
人類聲音處理仍然是技術(shù)發(fā)展的瓶頸。雖然這是所有模型的共同弱點(diǎn)，但也恰恰說明了這個(gè)領(lǐng)域的巨大發(fā)展?jié)摿ΑＮ磥淼募夹g(shù)突破可能需要專門針對人類語音和情感表達(dá)進(jìn)行深度優(yōu)化。
個(gè)性化和定制化將成為重要發(fā)展方向。不同的應(yīng)用場景對音視頻生成有著不同的要求，一刀切的解決方案已經(jīng)無法滿足多樣化的需求。未來的AI系統(tǒng)可能需要具備更強(qiáng)的適應(yīng)性，能夠根據(jù)具體應(yīng)用場景調(diào)整生成策略。
評估標(biāo)準(zhǔn)的標(biāo)準(zhǔn)化也變得越來越重要。VABench作為首個(gè)綜合性的音視頻生成評估基準(zhǔn)，為行業(yè)提供了統(tǒng)一的評判標(biāo)準(zhǔn)。但隨著技術(shù)的快速發(fā)展，評估標(biāo)準(zhǔn)也需要不斷更新和完善，以跟上技術(shù)進(jìn)步的步伐。
研究團(tuán)隊(duì)還觀察到一個(gè)有趣的現(xiàn)象：不同模型似乎有著不同的"風(fēng)格偏好"。有些模型更注重技術(shù)精確度，有些則更強(qiáng)調(diào)藝術(shù)表現(xiàn)力。這種多樣性實(shí)際上是健康的技術(shù)生態(tài)的體現(xiàn)，不同的技術(shù)路線可以滿足不同的應(yīng)用需求。
最后，數(shù)據(jù)質(zhì)量和多樣性仍然是制約技術(shù)發(fā)展的關(guān)鍵因素。測試結(jié)果顯示，AI模型的表現(xiàn)很大程度上受到訓(xùn)練數(shù)據(jù)分布的影響。未來需要構(gòu)建更加全面、平衡、高質(zhì)量的訓(xùn)練數(shù)據(jù)集，特別是在立體聲、復(fù)雜場景和虛擬世界等相對薄弱的領(lǐng)域。
說到底，VABench不僅僅是一個(gè)評估工具，更是AI音視頻生成技術(shù)發(fā)展的一面鏡子。通過這面鏡子，我們能夠清楚地看到當(dāng)前技術(shù)的成就和不足，也能夠展望未來發(fā)展的方向。正如研究團(tuán)隊(duì)所期望的，VABench將成為推動整個(gè)領(lǐng)域持續(xù)進(jìn)步的重要力量，幫助AI技術(shù)更好地理解和模擬我們的多彩世界。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)本身。隨著AI生成內(nèi)容在教育、娛樂、媒體等領(lǐng)域的廣泛應(yīng)用，如何確保這些內(nèi)容的質(zhì)量和真實(shí)性變得越來越重要。VABench提供的不僅僅是技術(shù)評估，更是對AI內(nèi)容質(zhì)量的保障機(jī)制，為AI技術(shù)的健康發(fā)展提供了重要支撐。
對于普通用戶來說，這項(xiàng)研究的成果將最終體現(xiàn)在更自然、更真實(shí)、更具感染力的AI生成視頻中。無論是教育課件中的動畫講解，還是社交媒體上的創(chuàng)意短視頻，都將因?yàn)檫@些技術(shù)進(jìn)步而變得更加精彩。VABench的出現(xiàn)，標(biāo)志著AI音視頻生成技術(shù)正在從"能用"向"好用"、從"模仿"向"創(chuàng)造"的重要躍升。
Q&A
Q1：VABench是什么，它有什么特別之處？
A：VABench是北京大學(xué)等機(jī)構(gòu)聯(lián)合開發(fā)的首個(gè)專門評估AI音視頻同步生成能力的綜合基準(zhǔn)系統(tǒng)。它的特別之處在于不僅測試AI能否生成清晰的畫面和聲音，更重要的是檢驗(yàn)音頻和視頻是否能像真實(shí)世界一樣自然協(xié)調(diào)，包括唇語同步、物理聲音匹配、立體聲空間效果等15個(gè)維度的全方位評估。
Q2：目前的AI模型在音視頻生成方面表現(xiàn)如何？
A：測試結(jié)果顯示AI模型各有強(qiáng)弱。像Veo3、Sora2這樣端到端訓(xùn)練的模型在音畫同步方面表現(xiàn)更好，特別是需要高度協(xié)調(diào)的場景。但所有模型在人類聲音處理和立體聲生成方面都還有很大提升空間，大多數(shù)立體聲效果實(shí)際上只是單聲道的簡單復(fù)制。
Q3：VABench的評估結(jié)果對普通用戶有什么意義？
A：這些評估結(jié)果將直接影響未來AI生成視頻的質(zhì)量。通過VABench的科學(xué)測評，開發(fā)者能夠發(fā)現(xiàn)并改進(jìn)AI模型的不足，最終讓普通用戶在使用AI生成視頻時(shí)獲得更自然、更真實(shí)的體驗(yàn)，比如更準(zhǔn)確的口型同步、更逼真的環(huán)境音效，以及更有沉浸感的立體聲效果。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會在24小時(shí)內(nèi)處理完畢。

同類資訊

松鼠Ai徐藝涵獲評福布斯中國“影響力教育人物”獎(jiǎng)：以AI之智，共筑教育未來

網(wǎng)傳拿下SpaceX低軌衛(wèi)通相控陣天線量產(chǎn)訂單，碩貝德回應(yīng)

將復(fù)古風(fēng)貫徹到底，現(xiàn)代下一代索納塔被曝將致敬80年代初代車型

榮耀MagicOS十二月功能上新：一句話P圖、全品牌互聯(lián)等

突破美國壟斷，浙江小城跑出一只黑馬

天貓超市加碼淘寶閃購，菜鳥負(fù)責(zé)倉網(wǎng)與倉配運(yùn)營

全站最新

松鼠Ai徐藝涵獲評福布斯中國“影響力教育人物”獎(jiǎng)：以AI之智，共筑教育未來

網(wǎng)傳拿下SpaceX低軌衛(wèi)通相控陣天線量產(chǎn)訂單，碩貝德回應(yīng)

將復(fù)古風(fēng)貫徹到底，現(xiàn)代下一代索納塔被曝將致敬80年代初代車型

榮耀MagicOS十二月功能上新：一句話P圖、全品牌互聯(lián)等

熱門推薦

馬斯克：傳統(tǒng)燃油車將逐漸消亡

AI預(yù)報(bào)全球天氣，氣象人工智能科學(xué)模型「風(fēng)源」發(fā)布

拼多多官宣：實(shí)行聯(lián)席董事長制度

順豐主動退出抖音電商退貨業(yè)務(wù)

紅米REDMI Note 15系列新春版官宣將于明天發(fā)布

羅永浩宣布 2025 科技創(chuàng)新大會將發(fā)布細(xì)紅線 AI 軟件

Mistral AI 發(fā)布新版文檔識別技術(shù) Mistral OCR 3 模型

藍(lán)色光標(biāo)官宣深度接入豆包大模型，全面融合大語言與視頻生成能力

火山引擎譚待：2026年大模型市場將迎十倍增長，AI競爭不是零和博弈而是共同做大蛋糕

松鼠Ai徐藝涵獲評福布斯中國“影響力教育人物”獎(jiǎng)：以AI之智，共筑教育未來

網(wǎng)傳拿下SpaceX低軌衛(wèi)通相控陣天線量產(chǎn)訂單，碩貝德回應(yīng)

將復(fù)古風(fēng)貫徹到底，現(xiàn)代下一代索納塔被曝將致敬80年代初代車型

榮耀MagicOS十二月功能上新：一句話P圖、全品牌互聯(lián)等

突破美國壟斷，浙江小城跑出一只黑馬

它石智航發(fā)布全球首個(gè)實(shí)現(xiàn)自主刺繡機(jī)器人