快科技7月24日消息,今日,字節(jié)跳動(dòng)宣布正式發(fā)布端到端同聲傳譯模型Seed LiveInterpret 2.0。
據(jù)介紹,這是首個(gè)延遲&準(zhǔn)確率接近人類水平的產(chǎn)品級(jí)中英語音同傳系統(tǒng),在中英同傳翻譯質(zhì)量達(dá)到業(yè)界SOTA的同時(shí),實(shí)現(xiàn)了極低語音延遲水平。
字節(jié)跳動(dòng)表示,該模型基于全雙工端到端語音生成理解框架,支持中英互譯。
可實(shí)時(shí)處理多人語音輸入,像人類同傳譯員一樣以極低的延遲"邊聽邊說",一邊接收源語言語音輸入,一邊直接輸出目標(biāo)語言的翻譯語音。
![]()
同時(shí),Seed LiveInterpret 2.0還支持0樣本聲音復(fù)刻,溝通更流暢自然。
不過,目前模型主要支持中英互譯。
相比傳統(tǒng)機(jī)器同傳系統(tǒng),Seed LiveInterpret 2.0具有以下四大優(yōu)勢(shì):
接近真人同傳的翻譯準(zhǔn)確率
在多人會(huì)議等復(fù)雜場(chǎng)景中英雙向翻譯準(zhǔn)確率超70%,單人演講翻譯準(zhǔn)確率超80%,接近真人專業(yè)同傳水平。
極低延遲的"邊聽邊說"能力
翻譯延遲可低至2-3秒,較傳統(tǒng)機(jī)器同傳系統(tǒng)降低超60%。
零樣本聲音復(fù)刻
只需采樣實(shí)時(shí)語音信號(hào),便能提取聲音特征,用說話人的音色特質(zhì)實(shí)時(shí)"說出"外語。
智能平衡翻譯質(zhì)量、延遲和語音輸出節(jié)奏
根據(jù)語音清晰度、流暢度、復(fù)雜程度,調(diào)整輸出節(jié)奏,并適配不同語言特性。
模型測(cè)評(píng)結(jié)果顯示,在語音到文本同傳任務(wù)中,Seed LiveInterpret 2.0中英互譯平均翻譯質(zhì)量的人類評(píng)分達(dá)到74.8(評(píng)估譯文準(zhǔn)確率,滿分100),較排名第二的基準(zhǔn)系統(tǒng)(47.3分)超出58%。
![]()
在語音到語音任務(wù)中,業(yè)界僅3個(gè)翻譯系統(tǒng)支持該能力,其中Seed LiveInterpret 2.0中英互譯平均翻譯質(zhì)量達(dá)到66.3分(除評(píng)估譯文準(zhǔn)確率,還評(píng)估語音輸出時(shí)延、語速、發(fā)音、流暢性等指標(biāo),滿分100),遠(yuǎn)超其他基準(zhǔn)系統(tǒng),達(dá)到接近專業(yè)真人同傳的水平。
同時(shí),大部分基準(zhǔn)系統(tǒng)也不支持聲音復(fù)刻功能。
在延遲表現(xiàn)上,Seed LiveInterpret 2.0在語音到文本場(chǎng)景中,輸出首字平均延遲僅2.21秒,在語音到語音場(chǎng)景中,輸出延時(shí)僅2.53秒,做到了對(duì)翻譯質(zhì)量以及時(shí)延的均衡。
![]()





京公網(wǎng)安備 11011402013531號(hào)