繼去年4月發(fā)布了第一代音樂生成模型MurekaV1后,3月26日,昆侖萬維發(fā)布全球首款音樂推理大模型MurekaO1模型與全新基座模型MurekaV6。
《Mureka》AI音樂人MV全網(wǎng)首發(fā),該作品由AI生成,其中音樂由Mureka生成,
視頻由SkyReels技術(shù)支持生成。
據(jù)悉,MurekaV6是當(dāng)前Mureka的基座模型,支持純音樂生成,還支持10種語言的AI音樂創(chuàng)作。在MurekaV6中,昆侖萬維團隊引入自研ICL(in-contextlearning)技術(shù),使得聲場更加開闊,人聲質(zhì)感和混音設(shè)計進一步強化。

Mureka V6進入界面(Mureka官網(wǎng))
MurekaO1模型則是基于MurekaV6思維鏈的推理優(yōu)化版本,也是全球范圍內(nèi)首個引入CoT的音樂模型,在推理過程中加入思考與自我批判,大幅提升音樂品質(zhì)、音樂創(chuàng)作效率和靈活性,性能超過Suno,模型登頂SOTA。

圖丨Mureka V6支持10種語言的AI音樂創(chuàng)作
(Mureka官網(wǎng))
值得一提的是,MurekaO1中包含了Mureka團隊最新發(fā)布的音樂生成領(lǐng)域的創(chuàng)新研究成果——MusiCoT。
MusiCoT利用了思維鏈Chain-of-Thought(CoT)方法,不同于傳統(tǒng)自回歸模型逐步生成音頻,首次在細粒度音頻token預(yù)測前預(yù)生成整體音樂結(jié)構(gòu),大幅提升生成音樂的結(jié)構(gòu)連貫性與樂器編排精準(zhǔn)度。MusiCoT基于CLAP模型,無需人工標(biāo)注即具備高擴展性,并顯著提高了生成音樂的可解釋性和質(zhì)量。
此外,Mureka不僅是全球首批開放API服務(wù)的AI音樂生成平臺,還同步開放基于MurekaV6的模型微調(diào)服務(wù),成為全球首個開放模型微調(diào)功能的AI音樂生成平臺。
近期,昆侖萬維董事長兼CEO方漢詳細闡述了Mureka的用戶群體、商業(yè)模式、競爭優(yōu)勢、技術(shù)迭代方向以及整體戰(zhàn)略等關(guān)鍵內(nèi)容,完整揭示了昆侖萬維在AI音樂大模型領(lǐng)域的發(fā)展思路。
Mureka的用戶群體、商業(yè)模式是怎樣的,與同類模型相比有何特征?
方漢:用戶群體包括C端喜歡音樂的普通人,降低了他們的創(chuàng)作門檻,讓他們能自由作曲作詞;B端則主要是影視、游戲、音頻等領(lǐng)域的從業(yè)者,可幫助他們降低成本、提高效率。商業(yè)模式上,C端免費用戶有一定使用權(quán)限,付費可獲得更高速度和優(yōu)先的AI生成機會;B端提供專業(yè)功能,通過SaaS或PasS服務(wù)收費。
MurekaO1模型的優(yōu)勢是什么?思維鏈Chain-of-Thought(CoT)技術(shù)對生成效果有何幫助?
方漢:我們的優(yōu)勢在于思維鏈(Chain-of-Thought,簡稱CoT)技術(shù),能在生成前預(yù)測音樂結(jié)構(gòu),提高生成質(zhì)量,在人聲BGM混音、多語言支持方面表現(xiàn)出色。
Mureka O1模型是基于Mureka V6思維鏈的推理優(yōu)化版本,也是全球范圍內(nèi)首個引入CoT的音樂模型,在推理過程中加入思考與自我批判,大幅提升音樂品質(zhì)、音樂創(chuàng)作效率和靈活性。
MusiCoT利用了CoT方法,不同于傳統(tǒng)自回歸模型逐步生成音頻,MusiCoT首次在細粒度音頻token預(yù)測前預(yù)生成整體音樂結(jié)構(gòu),大幅提升生成音樂的結(jié)構(gòu)連貫性與樂器編排精準(zhǔn)度。MusiCoT基于CLAP模型,無需人工標(biāo)注即具備高擴展性,并顯著提高了生成音樂的可解釋性和質(zhì)量。
AI音樂產(chǎn)品有哪些大客戶?未來商業(yè)化空間如何,會與音樂平臺、創(chuàng)作者合作分成嗎?
方漢:去年就有大客戶,如中國聯(lián)通、中國移動,還有一些造車企業(yè)。海外小B合作也較多,我們的AI曲子在印尼流行音樂排行榜上進過前100。
數(shù)字音樂市場目前全球規(guī)模約40億美金,我們介入后市場規(guī)模有望擴大到百億美金。我們憑借技術(shù)優(yōu)勢和出海經(jīng)驗,希望在全球市場獲得較大份額。
海外有很多個人作者使用我們的產(chǎn)品,傳統(tǒng)音樂創(chuàng)作者對AI音樂的偏見需要時間消除。技術(shù)上AI音樂已接近實用化,預(yù)計3-5年AI生成的音樂能進入消費排行榜,5-10年整個產(chǎn)業(yè)會重組重構(gòu),可能出現(xiàn)新渠道。
我們作為制作工具,對版權(quán)持開放態(tài)度,但不會介入渠道分發(fā),付費使用的版權(quán)歸用戶。目前一些音樂創(chuàng)作者對AI音樂存在誤解,但頭部創(chuàng)作者對AIGC技術(shù)很敏銳。
面對國內(nèi)的競爭對手,公司所采取的差異化策略具體體現(xiàn)在哪些方面?
方漢:我們與大廠存在競爭關(guān)系,但出發(fā)點不同,他們多為自身平臺服務(wù),我們更注重B端客戶需求,且全球化程度高,支持多語言,在垂直細分賽道深耕多年。
公司AI音樂大模型的技術(shù)迭代方向是什么?
方漢:得益于算法和技術(shù)的擴散,AI音樂這一賽道吸引了更多參與者,學(xué)術(shù)界也對此興趣濃厚。目前數(shù)據(jù)是關(guān)鍵,國內(nèi)擁有全量音樂數(shù)據(jù)的廠商不多,昆侖萬維在數(shù)據(jù)積累方面處于領(lǐng)先地位,從2021年就開始立項研發(fā),經(jīng)驗豐富。算力成本降低是一方面,但算法的變化更為重要,我們需要借鑒文本大模型的優(yōu)化經(jīng)驗,探索自身的迭代方向。
未來我們的技術(shù)迭代方向,一是提供音頻領(lǐng)域整體解決方案,配合視頻大模型發(fā)展;二是實現(xiàn)語言交互式的音樂調(diào)整。
面對AI領(lǐng)域的迅猛發(fā)展,昆侖萬維制定了怎樣的整體戰(zhàn)略?
方漢:AI方面,我們既要腳踏實地,在AIGC賽道尋求盈利,也要仰望星空,持續(xù)投入文本大模型等領(lǐng)域,探索新的產(chǎn)品和商業(yè)模式。我們覺得基礎(chǔ)模型能力很重要,同時我們也關(guān)注生態(tài)的構(gòu)建,擁抱開源,探索多種路徑。
除了技術(shù)不斷演進,保持音樂生成領(lǐng)先地位,我們還要建立創(chuàng)作者生態(tài),幫助創(chuàng)作者商業(yè)化變現(xiàn),扭轉(zhuǎn)音樂行業(yè)對AIGC產(chǎn)品的看法,將用戶社群作為護城河,在各個國家成為最好的音樂生成模型。
開源對AI技術(shù)發(fā)展有何重要意義,昆侖萬維在開源社區(qū)中的角色是什么,未來還會推動更多AI技術(shù)開源嗎?
方漢:開源能滿足用戶長尾需求,反哺本源模型,提升產(chǎn)品質(zhì)量,還能樹立企業(yè)聲望,獲取銷售線索。我們是國內(nèi)較早做開源的企業(yè),未來會繼續(xù)推動開源,做好開源生態(tài)。





京公網(wǎng)安備 11011402013531號