IT之家 11 月 11 日消息,meta 基礎(chǔ)人工智能研究(FAIR)團(tuán)隊(duì)推出了“全語(yǔ)種自動(dòng)語(yǔ)音識(shí)別系統(tǒng)”(Omnilingual ASR),該系統(tǒng)可支持 1600 多種語(yǔ)言的語(yǔ)音轉(zhuǎn)寫,大幅拓展了當(dāng)前語(yǔ)音識(shí)別技術(shù)的語(yǔ)言覆蓋范圍。

此前,大多數(shù)語(yǔ)音識(shí)別工具都專注于幾百種資源豐富的語(yǔ)言,這些語(yǔ)言有大量的轉(zhuǎn)錄音頻。而全球現(xiàn)存 7000 余種語(yǔ)言中,絕大多數(shù)因缺乏訓(xùn)練數(shù)據(jù)而幾乎無(wú)法獲得人工智能支持。Omnilingual ASR 的推出旨在彌合這一鴻溝。
據(jù) meta 介紹,在其支持的 1600 種語(yǔ)言中,有 500 種系首次被任何 AI 系統(tǒng)所覆蓋。FAIR 團(tuán)隊(duì)將該系統(tǒng)視為邁向“通用語(yǔ)音轉(zhuǎn)寫系統(tǒng)”的重要一步,有望助力打破全球語(yǔ)言壁壘,促進(jìn)跨語(yǔ)言溝通與信息可及性。
據(jù)IT之家了解,系統(tǒng)識(shí)別精度與訓(xùn)練數(shù)據(jù)量密切相關(guān)。根據(jù) meta 公布的數(shù)據(jù),Omnilingual ASR 在測(cè)試的 1600 種語(yǔ)言中,對(duì)其中 78% 的語(yǔ)言實(shí)現(xiàn)了低于 10% 的字符錯(cuò)誤率(CER);對(duì)于至少擁有 10 小時(shí)訓(xùn)練音頻的語(yǔ)言,達(dá)此精度標(biāo)準(zhǔn)的比例提升至 95%;即便對(duì)于音頻時(shí)長(zhǎng)不足 10 小時(shí)的“低資源語(yǔ)言”,仍有 36% 實(shí)現(xiàn)了低于 10% CER 的表現(xiàn)。
為推動(dòng)后續(xù)研究與實(shí)際應(yīng)用落地,meta 同步發(fā)布了“全語(yǔ)種 ASR 語(yǔ)料庫(kù)”(Omnilingual ASR Corpus)—— 一個(gè)包含 350 種代表性不足語(yǔ)言的、大規(guī)模轉(zhuǎn)錄語(yǔ)音數(shù)據(jù)集。該語(yǔ)料庫(kù)采用知識(shí)共享署名許可協(xié)議(CC-BY)開(kāi)放獲取,旨在支持開(kāi)發(fā)者與研究人員針對(duì)特定本地語(yǔ)言需求,構(gòu)建或適配定制化的語(yǔ)音識(shí)別模型。
Omnilingual ASR 的一項(xiàng)關(guān)鍵創(chuàng)新在于其“自帶語(yǔ)言”(Bring Your Own Language)功能,該功能依托上下文學(xué)習(xí)(in-context learning)機(jī)制實(shí)現(xiàn)。受大型語(yǔ)言模型技術(shù)啟發(fā),用戶僅需提供少量配對(duì)的語(yǔ)音與文本樣本,系統(tǒng)即可直接從中學(xué)習(xí),無(wú)需重新訓(xùn)練或依賴高算力資源,就能添加新的語(yǔ)言。
meta 指出,理論上該方法可將 Omnilingual ASR 的語(yǔ)言支持能力擴(kuò)展至 5400 余種,遠(yuǎn)超當(dāng)前行業(yè)標(biāo)準(zhǔn)。盡管對(duì)極低資源語(yǔ)言的識(shí)別質(zhì)量尚不及完全訓(xùn)練的水平,但該技術(shù)已首次為眾多此前完全缺乏語(yǔ)音識(shí)別能力的語(yǔ)言社區(qū)提供了切實(shí)可行的解決方案。
meta 以 Apache 2.0 開(kāi)源許可協(xié)議發(fā)布 Omnilingual ASR 全部模型,允許研究人員與開(kāi)發(fā)者自由使用、修改及商用;配套數(shù)據(jù)集則采用 CC-BY 協(xié)議開(kāi)放。Omnilingual ASR 模型家族涵蓋從適用于低功耗設(shè)備的輕量級(jí) 3 億參數(shù)版本,到追求“頂尖精度”的 70 億參數(shù)版本,滿足不同應(yīng)用場(chǎng)景需求。所有模型均基于 FAIR 自主研發(fā)的 PyTorch 框架 fairseq2 構(gòu)建。





京公網(wǎng)安備 11011402013531號(hào)