機器之心發(fā)布
機器之心編輯部
高質(zhì)量音樂生成、高靈活音樂編輯,Seed-Music 再次打開了 AI 音樂創(chuàng)作的天花板。放假期間,本 i 人又領(lǐng)教了被 e 人支配的恐懼。
跟 e 人朋友出門玩,先被拉去飯局尬聊,再和陌生人組隊打本,下面這首歌真是唱出了 i 人心聲。

試聽鏈接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g
后兩天假期就舒服多了。通關(guān)了黑神話悟空還不過癮,我在家補經(jīng)典 86 版的西游記。無論多少次重溫,還是會被大圣的魅力吸引。

試聽鏈接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g
這歌怎么樣,是不是感覺斗戰(zhàn)勝佛活靈活現(xiàn),如在眼前?
實際上,兩首歌都并非真人所作,而是全靠字節(jié)最新發(fā)布的音樂大模型 ——Seed-Music。

Seed-Music 官網(wǎng):https://team.doubao.com/seed-music
據(jù)豆包大模型團隊官網(wǎng)介紹,Seed-Music 是一個具有靈活控制能力的音樂生成系統(tǒng),包含 Lyrics2Song、Lyrics2Leadsheet2Song、Music Editing、Singing Voice Conversion 四大核心功能,具體涵蓋十種創(chuàng)作任務(wù)。
剛發(fā)布,Seed-Music 就已經(jīng)在海外平臺引起了關(guān)注。

有音樂人表示:“(Seed-Music)生成的音樂質(zhì)量比同類模型都高出一籌。已經(jīng)期待它能作為一項服務(wù)被使用。”

AI 音樂難點重重
Seed-Music 放新招
雖說 AIGC 很火,但相較于語音合成、文本生成,音樂生成面臨著更為復(fù)雜的挑戰(zhàn)。
目前,業(yè)界在 AI 音樂領(lǐng)域的研究主要集中在以下幾個核心問題:
音樂信號的復(fù)雜性:音樂信號包含多個重疊音軌、豐富的音調(diào)和音色以及廣泛的頻率帶寬,不僅要保持短期旋律的連貫性,還要在長期結(jié)構(gòu)上展現(xiàn)出一致性。評估標(biāo)準(zhǔn)的缺乏:音樂作為一種開放、主觀的藝術(shù)形式,缺乏一套通用的問題表述和用于比較的黃金指標(biāo),評估局限性大。用戶需求的多樣性:不同的用戶群體,如音樂小白、音樂初學(xué)者、資深音樂人等,對音樂創(chuàng)作的需求差異很大。無論是傳統(tǒng)的音樂輔助創(chuàng)作工具,還是當(dāng)下熱門的 AI 音樂生成的研究和產(chǎn)品,面向上述問題,均還處于摸索階段。
比如針對音樂信號復(fù)雜性,Google、meta、Stability AI 等各家在音頻、演奏、曲譜層面上做了建模嘗試,效果各有優(yōu)缺,而且各家的評估方法均有局限,人工評測仍必不可少。
面對這些挑戰(zhàn),字節(jié) Seed-Music 采用了創(chuàng)新的統(tǒng)一框架,將語言模型和擴散模型的優(yōu)勢相結(jié)合,并融入符號音樂的處理。
通過官方視頻展示,我們發(fā)現(xiàn),與其他音樂模型相比,Seed-Music 能更好地滿足不同群體的音樂創(chuàng)作需求。
滿足多元需求
專門提供高靈活編輯
我們仔細研究了 Seed-Music 的音樂生成 demo,發(fā)現(xiàn)其能力真?豐富多樣,且 demo 人聲效果逼真度,絕了。
接下來,我制作成幾個短視頻,向大家直觀展示下效果。
對于專業(yè)音樂人來說,使用 AI 工具輔助創(chuàng)作,最大痛點莫過于無法對音樂進行編輯。
Seed-Music 創(chuàng)新點之一,在于能通過 lead sheet(領(lǐng)譜)來編輯音樂,這增加了音樂創(chuàng)作可解釋性。
在官方視頻的 Lead2Song 部分,可以看到同一版歌詞,通過領(lǐng)譜增減音軌、改變輸入風(fēng)格后,就能得到不同結(jié)果的歌曲,顯著提高模型的實用性。
除領(lǐng)譜外,Seed-Music 也能直接調(diào)整歌詞或旋律。比如,“情人節(jié)的玫瑰花,你送給了誰 / 你送給別人”,歌詞修改前后,旋律保持不變,音樂的連貫性得以保持,過渡效果非常平滑。

視頻鏈接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g
即使是音樂小白,Seed-Music 也提供了簡單有趣的創(chuàng)作場景。
文生音樂這一必備能力,自然少不了。
輸入內(nèi)容除了文本,也可以是音頻,它能基于原曲輸出續(xù)作或仿作。下面這首英文歌曲“搖身一變”,仿寫成了中文古風(fēng)歌。

視頻鏈接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g
哪怕輸入臨時錄制的 10 秒人聲, Seed-Music 的零樣本音頻轉(zhuǎn)換技術(shù)都能夠?qū)⑵滢D(zhuǎn)化為流暢的聲樂。
驚喜的是,Seed-Music 能將中文人聲輸入轉(zhuǎn)換為英文聲樂輸出,實現(xiàn)了跨語種人聲克隆,擴大了音樂小白們的創(chuàng)作空間。

視頻鏈接:https://mp.weixin.qq.com/s/bnIR4zaEoJEZA4AZjGl50g
統(tǒng)一框架
實現(xiàn)高質(zhì)量音樂生成

那為什么 Seed-Music 能做到生成高質(zhì)量音樂、提供靈活編輯能力呢?
來自豆包大模型團隊的研究者們表示,這主要得益于統(tǒng)一框架,關(guān)鍵技術(shù)貢獻如下:
提出了一種基于新型 token 和語言模型(LM)的方法,并引入了一種能夠根據(jù)不同類型用戶輸入生成專業(yè)生成內(nèi)容(PGC)質(zhì)量音樂的訓(xùn)練方法。提出了一種全新的基于擴散模型的方法,特別適合音樂編輯。引入了一種在歌唱聲音背景下的零樣本聲音轉(zhuǎn)換的新穎方法。系統(tǒng)可以根據(jù)用戶短至 10 秒的參考歌唱或甚至普通語音的音色生成完整的聲樂混音。
Seed-Music 架構(gòu)
根據(jù)官方論文,如上圖所示,從高層次來看 Seed-Music 有著統(tǒng)一的音樂生成框架,主要包含以下三個核心組件:一個表征模型,用于將原始音頻波形壓縮成某種壓縮表征形式;一個生成器,經(jīng)過訓(xùn)練可以接受各種用戶控制輸入,并相應(yīng)地生成中間表征;一個渲染器,能夠從生成器輸出的中間表征中,合成高質(zhì)量的音頻波形。
基于統(tǒng)一框架,Seed-Music 建立了三種適用于不同場景的中間表征:音頻 token、符號音樂 token 和聲碼器 latent。
音頻 token:通常以低于音頻采樣率的標(biāo)記率學(xué)習(xí),旨在有效編碼語義和聲學(xué)信息,能輕松橋接不同模態(tài),但不同音樂信息高度糾纏,給生成器帶來挑戰(zhàn)。符號音樂 token:如 MIDI、ABC 記號或鋼琴卷簾記號等,本質(zhì)上離散,可被大型語言模型操作,具有可解釋性,便于用戶在輔助音樂創(chuàng)作中交互,但缺乏聲學(xué)信息,依賴渲染器生成聲學(xué)細節(jié)。聲碼器 latent:在探索基于擴散模型的音樂音頻生成中,可作為中間表征,與量化音頻標(biāo)記相比,信息損失少、渲染器權(quán)重更輕,但生成器輸出不可解釋,且由于僅用波形重建目標(biāo)訓(xùn)練,可能不夠有效作為訓(xùn)練生成器的預(yù)測目標(biāo)。
Seed-Music pipeline
如圖所示,中間表征對整個系統(tǒng)來說很重要,每種表征都有其特點和適用場景,具體選擇取決于用戶的音樂創(chuàng)作任務(wù)。
基于音頻 token 的鏈路:包括 tokenizer、自回歸語言模型、token 擴散模型和聲碼器,音頻 token 有效地存儲了原始信號的顯著音樂信息,語言模型根據(jù)用戶控制輸入生成音頻 token,token 擴散模型處理音頻 token 以生成具有增強聲學(xué)細節(jié)的音頻波形。基于符號音樂 token 的鏈路:采用符號音樂 token 作為中間表征,與音頻 token 基于的管道類似,但有一些區(qū)別,如 lead sheet tokenizer 將信息編碼為 token,語言模型學(xué)習(xí)預(yù)測 lead sheet token 序列,lead sheet token 是可解釋的,并且允許在訓(xùn)練和推理中注入人類知識,但擴散模型從 lead sheet token 預(yù)測聲碼器 latent 更具挑戰(zhàn)性,需要更大的模型規(guī)模。基于聲碼器 latent 的鏈路:遵循通過 latent 擴散建模從文本直接生成音樂到聲學(xué)聲碼器 latent 表征的工作,通過變分自編碼器和擴散模型將條件信號映射到歸一化和連續(xù)的聲碼器 latent 空間。在上述鏈路中,Seed-Music 經(jīng)歷三個訓(xùn)練階段:預(yù)訓(xùn)練、微調(diào)和后訓(xùn)練。預(yù)訓(xùn)練旨在為音樂音頻建模建立強大的基礎(chǔ)模型;微調(diào)包括基于高質(zhì)量音樂數(shù)據(jù)集的數(shù)據(jù)微調(diào),以增強音樂性,或者針對特定創(chuàng)作任務(wù)提高可控性、可解釋性和交互性的指令微調(diào);后訓(xùn)練是通過強化學(xué)習(xí)進行的,從整體上提高了模型的穩(wěn)定性。
此外,在推理時,樣本解碼方案對于從訓(xùn)練模型中誘導(dǎo)出最佳結(jié)果至關(guān)重要。研究者們同時會應(yīng)用模型蒸餾和流式解碼方案來提高系統(tǒng)的延遲。
音樂生成技術(shù)
激發(fā)社交新場景
回顧過往,新技術(shù)往往能夠激發(fā)新創(chuàng)新。可以看到,Seed-Music 將音樂生成自然地嵌入不同創(chuàng)作群體的工作流中,使 AI 音樂具備獨特的社交屬性,這是其與傳統(tǒng)音樂創(chuàng)作模式的不同之處。在未來,或許會由此涌現(xiàn)創(chuàng)作音樂、欣賞音樂、分享音樂的新場景。
就目前觀察到的業(yè)界各玩家動向來說,meta 和谷歌在 MusicGen 和 MusicLM 論文發(fā)布、Lyria 短暫內(nèi)測之后,暫無更多消息放出。Suno、Udio 更為活躍,正側(cè)重于改善效果。Seed-Music 此番在技術(shù)研發(fā)層面提供了更多可能。
期待 Seed-Music 乃至 AI 產(chǎn)業(yè)各類玩家能在未來獲取更多突破。
最后,歡迎對 Seed-Music 感興趣的朋友訪問豆包大模型團隊官網(wǎng) https://team.doubao.com/seed-music,了解更多相關(guān)的信息。
https://team.doubao.com/en/special/seed-music?view_from=jiqizhixin





京公網(wǎng)安備 11011402013531號