字節(jié)跳動(dòng)發(fā)布端到端同聲傳譯模型 Seed LiveInterpret 2.0

IP屬地中國·北京 編輯：朱天宇 Chinaz 時(shí)間：2025-07-24 14:23:18

字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)正式對(duì)外發(fā)布其最新研發(fā)成果——Seed LiveInterpret2.0端到端同聲傳譯大模型。這一模型的發(fā)布標(biāo)志著機(jī)器同聲傳譯技術(shù)取得了重大突破，其翻譯準(zhǔn)確率接近專業(yè)同傳譯員水平，且延遲時(shí)間極低，僅需3秒，同時(shí)還具備實(shí)時(shí)聲音復(fù)刻功能，能夠以說話者的音色輸出翻譯后的語音，極大地提升了跨語言交流的自然度和流暢性。
同聲傳譯一直被視為翻譯領(lǐng)域的巔峰技能，它要求譯者在極短時(shí)間內(nèi)完成語言轉(zhuǎn)換，邊聽邊說，對(duì)翻譯技術(shù)研究者來說極具挑戰(zhàn)性。Seed LiveInterpret2.0的出現(xiàn)，不僅在中英同傳翻譯質(zhì)量上達(dá)到了業(yè)界頂尖水平（SOTA），更實(shí)現(xiàn)了極低的語音延遲，為同聲傳譯領(lǐng)域帶來了新的技術(shù)標(biāo)桿。
Seed LiveInterpret2.0基于全雙工端到端語音生成理解框架，支持中英互譯，并可實(shí)時(shí)處理多人語音輸入，像人類同傳譯員一樣以極低的延遲 “邊聽邊說”，一邊接收源語言語音輸入，一邊直接輸出目標(biāo)語言的翻譯語音。此外，該模型還支持零樣本聲音復(fù)刻，無需提前采集聲音樣本，僅通過實(shí)時(shí)對(duì)話即可合成“原聲”語音翻譯，讓溝通更加流暢自然。
在測(cè)試中，Seed LiveInterpret2.0展示了其強(qiáng)大的能力。面對(duì)40秒的大段中文表達(dá)，該模型能夠低延遲地絲滑輸出同款音色的英語翻譯。不僅如此，它還能快速學(xué)習(xí)音色，無論是《西游記》里的豬八戒，還是《紅樓夢(mèng)》中的林黛玉，即便此前未“聽”過角色的聲音，依然能通過實(shí)時(shí)交互進(jìn)行現(xiàn)場(chǎng)演繹。
相比傳統(tǒng)機(jī)器同傳系統(tǒng)，Seed LiveInterpret2.0在多個(gè)方面展現(xiàn)出顯著優(yōu)勢(shì)。首先，它具備接近真人同傳的翻譯準(zhǔn)確率，精準(zhǔn)的語音理解能力保障了翻譯準(zhǔn)確度，在多人會(huì)議等復(fù)雜場(chǎng)景中英雙向翻譯準(zhǔn)確率超70%，單人演講翻譯準(zhǔn)確率超80%，接近真人專業(yè)同傳水平。其次，其極低延遲的 “邊聽邊說” 能力采用全雙工語音理解生成框架，翻譯延遲可低至2-3秒，較傳統(tǒng)機(jī)器同傳系統(tǒng)降低超60%，實(shí)現(xiàn)了真正的 “邊聽邊說” 翻譯。此外，零樣本聲音復(fù)刻功能讓模型能夠以說話人的音色特質(zhì)實(shí)時(shí) “說出” 外語，提升交流的沉浸感和親和力。最后，該模型還能智能平衡翻譯質(zhì)量、延遲和語音輸出節(jié)奏，根據(jù)語音清晰度、流暢度、復(fù)雜程度，調(diào)整輸出節(jié)奏，并適配不同語言特性，即使面對(duì)超長(zhǎng)信息，也能保證傳譯語音節(jié)奏的自然流暢。
在專業(yè)人工評(píng)測(cè)中，Seed LiveInterpret2.0的表現(xiàn)尤為突出。評(píng)測(cè)基于 RealSI 數(shù)據(jù)集，這是一個(gè)包含中英雙向各10個(gè)領(lǐng)域的公開測(cè)試集。人工評(píng)測(cè)團(tuán)隊(duì)以傳達(dá)有效信息的占比（Valid Information Proportion）為指標(biāo)，在中英方向上測(cè)試了包括 Seed LiveInterpret2.0在內(nèi)的多個(gè)業(yè)界領(lǐng)先的同傳系統(tǒng)。評(píng)測(cè)結(jié)果顯示，在語音到文本的同傳任務(wù)中，Seed LiveInterpret2.0中英互譯平均翻譯質(zhì)量的人類評(píng)分達(dá)到74.8(滿分100，評(píng)估譯文準(zhǔn)確率)，較排名第二的基準(zhǔn)系統(tǒng)(47.3分)超出58%。在語音到語音中英同傳任務(wù)中，僅3個(gè)測(cè)評(píng)的翻譯系統(tǒng)支持該能力，其中 Seed LiveInterpret2.0中英互譯平均翻譯質(zhì)量達(dá)到66.3分(滿分100，除評(píng)估譯文準(zhǔn)確率，還評(píng)估語音輸出時(shí)延、語速、發(fā)音、流暢性等指標(biāo))，遠(yuǎn)超其他基準(zhǔn)系統(tǒng)，達(dá)到接近專業(yè)真人同傳的水平。同時(shí)，大部分基準(zhǔn)系統(tǒng)也不支持聲音復(fù)刻功能。
在延遲表現(xiàn)上，Seed LiveInterpret2.0在語音到文本場(chǎng)景中，輸出首字平均延遲僅2.21秒，在語音到語音場(chǎng)景中，輸出延時(shí)僅2.53秒，做到了對(duì)翻譯質(zhì)量以及時(shí)延的均衡。
技術(shù)報(bào)告:
https://arxiv.org/pdf/2507.17527
項(xiàng)目主頁:
https://seed.bytedance.com/seed_liveinterpret

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

阿里千問緊急辟謠

力積存儲(chǔ)再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰(zhàn)

一加中國區(qū)總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會(huì)2025：Data+AI雙引擎實(shí)效落地，共筑智能時(shí)代新零售

安卓上線“擴(kuò)展深色主題”設(shè)置，專治堅(jiān)守淺色UI的“不聽話”App

國產(chǎn)GPU四小龍IPO齊活！最后一個(gè)剛剛公布

全站最新

阿里千問緊急辟謠

力積存儲(chǔ)再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰(zhàn)

一加中國區(qū)總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會(huì)2025：Data+AI雙引擎實(shí)效落地，共筑智能時(shí)代新零售

熱門推薦

阿里千問緊急辟謠

力積存儲(chǔ)再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰(zhàn)

一加中國區(qū)總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會(huì)2025：Data+AI雙引擎實(shí)效落地，共筑智能時(shí)代新零售

安卓上線“擴(kuò)展深色主題”設(shè)置，專治堅(jiān)守淺色UI的“不聽話”App

國產(chǎn)GPU四小龍IPO齊活！最后一個(gè)剛剛公布

蚌埠滕湖機(jī)場(chǎng)完成驗(yàn)證試飛！

中國新礦物團(tuán)隊(duì)再添一員！“金秀礦”正式命名背后有多難？｜封面專訪

羅永浩吐槽后，上海電信：WIFI速率不達(dá)標(biāo)原因很多

李禮輝：必須加快制度創(chuàng)新，確定金融智能體的法律地位

TikTok美國迎“大結(jié)局”：持股19.9%合資方案對(duì)TikTok意味著什么？

紫光國微：在商業(yè)航天領(lǐng)域，公司的FPGA等系列產(chǎn)品正陸續(xù)導(dǎo)入

上海電信回應(yīng)“WIFI速率不達(dá)標(biāo)”

TikTok內(nèi)部信“泄密”：被反復(fù)討論的“美國協(xié)議”，到底發(fā)生了什么？

我國科學(xué)家實(shí)現(xiàn)新一代光計(jì)算芯片研究新突破