7 月 24 日消息,今天,字節(jié)跳動 Seed 團(tuán)隊正式發(fā)布端到端同聲傳譯模型 Seed LiveInterpret 2.0,是首個延遲 & 準(zhǔn)確率接近人類水平的產(chǎn)品級中英語音同傳系統(tǒng)。
據(jù)官方介紹,它基于全雙工端到端語音生成理解框架,支持中英互譯,可實時處理多人語音輸入,像人類同傳譯員一樣以極低的延遲“邊聽邊說”,一邊接收源語言語音輸入,一邊直接輸出目標(biāo)語言的翻譯語音。同時,Seed LiveInterpret 2.0 還支持 0 樣本聲音復(fù)刻,讓溝通更加流暢自然。
在測試中,可以觀察到,Seed LiveInterpret 2.0 面對 40 秒的大段中文表達(dá),能夠低延遲地絲滑輸出同款音色的英語翻譯。此外,Seed LiveInterpret 2.0 還能快速學(xué)習(xí)音色。
相比傳統(tǒng)機器同傳系統(tǒng),Seed LiveInterpret 2.0 模型具備以下優(yōu)勢:
接近真人同傳的翻譯準(zhǔn)確率。精準(zhǔn)的語音理解能力保障了翻譯準(zhǔn)確度,在多人會議等復(fù)雜場景中英雙向翻譯準(zhǔn)確率超 70%,單人演講翻譯準(zhǔn)確率超 80%,接近真人專業(yè)同傳水平。
極低延遲的“邊聽邊說”能力。采用全雙工語音理解生成框架,翻譯延遲可低至 2-3 秒,較傳統(tǒng)機器同傳系統(tǒng)降低超 60%,實現(xiàn)了真正的“邊聽邊說”翻譯。
零樣本聲音復(fù)刻,音色真實自然。只需采樣實時語音信號,便能提取聲音特征,用說話人的音色特質(zhì)實時“說出”外語,提升交流的沉浸感和親和力。
智能平衡翻譯質(zhì)量、延遲和語音輸出節(jié)奏。可根據(jù)語音清晰度、流暢度、復(fù)雜程度,調(diào)整輸出節(jié)奏,并適配不同語言特性。面對超長信息,依然能保證傳譯語音節(jié)奏的自然流暢。
注意到,目前 Seed LiveInterpret 2.0 技術(shù)報告已公布,模型基于火山引擎對外開放。此外,Ola Friend 耳機也將在 8 月底接入 Seed LiveInterpret 2.0,成為首個支持該模型的智能硬件設(shè)備。





京公網(wǎng)安備 11011402013531號