自今年5月嗶哩嗶哩(以下簡(jiǎn)稱B站)宣布將下架原國際版APP,與國內(nèi)版合并為一個(gè)統(tǒng)一APP后,B站的出海下一步便引來各方關(guān)注。
近日,在世界人工智能大會(huì)上,B站公布了其為服務(wù)海外用戶而全新自研的「AI原聲翻譯功能」,以便海外用戶更好體驗(yàn)游戲、科技、二次元等主推內(nèi)容。在完成了APP合并、海外用戶頁面多語種適配、特別是視頻原聲翻譯功能上線后,B站似乎已經(jīng)做好準(zhǔn)備蓄力開拓海外市場(chǎng)。
本次發(fā)布的「AI原聲翻譯」功能除了自動(dòng)擦除中文字幕改為英文、彈幕翻譯及各類按鈕英文適配等基礎(chǔ)的文本互譯之外,還能完美還原UP主的聲線、音色、氣口,而非傳統(tǒng)的機(jī)器音翻譯,同時(shí)還能基于翻譯語言進(jìn)行口型模擬。這意味著在未來中文用戶觀看外語UP主視頻或海外用戶觀看中文UP主視頻時(shí)能無差別體驗(yàn)原汁原味的“本地化”翻譯視頻。后續(xù),B站還將視需求把日語等語言加入「AI原聲翻譯」功能中,持續(xù)擴(kuò)展在海外市場(chǎng)的適配能力。
據(jù)悉,目前B站「AI原聲翻譯功能」中,跨語言聲音還原技術(shù)源自內(nèi)部代號(hào)為「 IndexTTS2」的語音生成模型 ,其整體框架如下圖所示。該模型引入了一種新穎、通用且兼容自回歸架構(gòu)的語音時(shí)長(zhǎng)及情感控制方法。該方法支持指定token數(shù)量,從而實(shí)現(xiàn)對(duì)語音時(shí)長(zhǎng)的精確調(diào)控,降低了翻譯任務(wù)的難度。另外對(duì)情感表達(dá)與說話人身份進(jìn)行了有效解耦,實(shí)現(xiàn)了高質(zhì)量地復(fù)刻原片語音中蘊(yùn)含的情感。
為攻克「AI原聲翻譯功能」中的核心挑戰(zhàn)——尤其在游戲、二次元等專名梗點(diǎn)密集領(lǐng)域——實(shí)現(xiàn)原風(fēng)格精準(zhǔn)保留與語音時(shí)長(zhǎng)完美對(duì)應(yīng),B站技術(shù)團(tuán)隊(duì)基于大語言模型(LLM)構(gòu)建翻譯引擎,獨(dú)創(chuàng)性基于語音時(shí)長(zhǎng)匹配、原聲翻譯標(biāo)準(zhǔn)與UP主獨(dú)特風(fēng)格構(gòu)建多目標(biāo)獎(jiǎng)勵(lì)模型,并采用對(duì)抗式強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練驅(qū)動(dòng)模型持續(xù)進(jìn)化與精準(zhǔn)適配。同時(shí),引入Deep Research深度挖掘技術(shù),專攻專有名詞與流行梗點(diǎn)的翻譯難點(diǎn),確保最終譯文準(zhǔn)確、地道、傳神。字幕擦除部分則結(jié)合了先進(jìn)的多模態(tài)大模型OCR技術(shù)和基于STTN網(wǎng)絡(luò)的視頻重繪技術(shù),實(shí)現(xiàn)字幕區(qū)域的精準(zhǔn)檢測(cè)與高還原度擦除。
文丨記者 杭瑩
受訪者供圖





京公網(wǎng)安備 11011402013531號(hào)