字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)正式對(duì)外發(fā)布其最新研發(fā)成果——Seed LiveInterpret2.0端到端同聲傳譯大模型。這一模型的發(fā)布標(biāo)志著機(jī)器同聲傳譯技術(shù)取得了重大突破,其翻譯準(zhǔn)確率接近專業(yè)同傳譯員水平,且延遲時(shí)間極低,僅需3秒,同時(shí)還具備實(shí)時(shí)聲音復(fù)刻功能,能夠以說話者的音色輸出翻譯后的語音,極大地提升了跨語言交流的自然度和流暢性。
同聲傳譯一直被視為翻譯領(lǐng)域的巔峰技能,它要求譯者在極短時(shí)間內(nèi)完成語言轉(zhuǎn)換,邊聽邊說,對(duì)翻譯技術(shù)研究者來說極具挑戰(zhàn)性。Seed LiveInterpret2.0的出現(xiàn),不僅在中英同傳翻譯質(zhì)量上達(dá)到了業(yè)界頂尖水平(SOTA),更實(shí)現(xiàn)了極低的語音延遲,為同聲傳譯領(lǐng)域帶來了新的技術(shù)標(biāo)桿。
Seed LiveInterpret2.0基于全雙工端到端語音生成理解框架,支持中英互譯,并可實(shí)時(shí)處理多人語音輸入,像人類同傳譯員一樣以極低的延遲 “邊聽邊說”,一邊接收源語言語音輸入,一邊直接輸出目標(biāo)語言的翻譯語音。此外,該模型還支持零樣本聲音復(fù)刻,無需提前采集聲音樣本,僅通過實(shí)時(shí)對(duì)話即可合成“原聲”語音翻譯,讓溝通更加流暢自然。
在測(cè)試中,Seed LiveInterpret2.0展示了其強(qiáng)大的能力。面對(duì)40秒的大段中文表達(dá),該模型能夠低延遲地絲滑輸出同款音色的英語翻譯。不僅如此,它還能快速學(xué)習(xí)音色,無論是《西游記》里的豬八戒,還是《紅樓夢(mèng)》中的林黛玉,即便此前未“聽”過角色的聲音,依然能通過實(shí)時(shí)交互進(jìn)行現(xiàn)場(chǎng)演繹。
相比傳統(tǒng)機(jī)器同傳系統(tǒng),Seed LiveInterpret2.0在多個(gè)方面展現(xiàn)出顯著優(yōu)勢(shì)。首先,它具備接近真人同傳的翻譯準(zhǔn)確率,精準(zhǔn)的語音理解能力保障了翻譯準(zhǔn)確度,在多人會(huì)議等復(fù)雜場(chǎng)景中英雙向翻譯準(zhǔn)確率超70%,單人演講翻譯準(zhǔn)確率超80%,接近真人專業(yè)同傳水平。其次,其極低延遲的 “邊聽邊說” 能力采用全雙工語音理解生成框架,翻譯延遲可低至2-3秒,較傳統(tǒng)機(jī)器同傳系統(tǒng)降低超60%,實(shí)現(xiàn)了真正的 “邊聽邊說” 翻譯。此外,零樣本聲音復(fù)刻功能讓模型能夠以說話人的音色特質(zhì)實(shí)時(shí) “說出” 外語,提升交流的沉浸感和親和力。最后,該模型還能智能平衡翻譯質(zhì)量、延遲和語音輸出節(jié)奏,根據(jù)語音清晰度、流暢度、復(fù)雜程度,調(diào)整輸出節(jié)奏,并適配不同語言特性,即使面對(duì)超長(zhǎng)信息,也能保證傳譯語音節(jié)奏的自然流暢。
在專業(yè)人工評(píng)測(cè)中,Seed LiveInterpret2.0的表現(xiàn)尤為突出。評(píng)測(cè)基于 RealSI 數(shù)據(jù)集,這是一個(gè)包含中英雙向各10個(gè)領(lǐng)域的公開測(cè)試集。人工評(píng)測(cè)團(tuán)隊(duì)以傳達(dá)有效信息的占比(Valid Information Proportion)為指標(biāo),在中英方向上測(cè)試了包括 Seed LiveInterpret2.0在內(nèi)的多個(gè)業(yè)界領(lǐng)先的同傳系統(tǒng)。評(píng)測(cè)結(jié)果顯示,在語音到文本的同傳任務(wù)中,Seed LiveInterpret2.0中英互譯平均翻譯質(zhì)量的人類評(píng)分達(dá)到74.8(滿分100,評(píng)估譯文準(zhǔn)確率),較排名第二的基準(zhǔn)系統(tǒng)(47.3分)超出58%。在語音到語音中英同傳任務(wù)中,僅3個(gè)測(cè)評(píng)的翻譯系統(tǒng)支持該能力,其中 Seed LiveInterpret2.0中英互譯平均翻譯質(zhì)量達(dá)到66.3分(滿分100,除評(píng)估譯文準(zhǔn)確率,還評(píng)估語音輸出時(shí)延、語速、發(fā)音、流暢性等指標(biāo)),遠(yuǎn)超其他基準(zhǔn)系統(tǒng),達(dá)到接近專業(yè)真人同傳的水平。同時(shí),大部分基準(zhǔn)系統(tǒng)也不支持聲音復(fù)刻功能。
在延遲表現(xiàn)上,Seed LiveInterpret2.0在語音到文本場(chǎng)景中,輸出首字平均延遲僅2.21秒,在語音到語音場(chǎng)景中,輸出延時(shí)僅2.53秒,做到了對(duì)翻譯質(zhì)量以及時(shí)延的均衡。
技術(shù)報(bào)告:
https://arxiv.org/pdf/2507.17527
項(xiàng)目主頁:
https://seed.bytedance.com/seed_liveinterpret





京公網(wǎng)安備 11011402013531號(hào)