近日,約翰霍普金斯大學的一組研究人員推出了 mmBERT,這是一款新型的多語種編碼器,旨在填補當前多語種自然語言處理領域的空白。該模型在多個任務上超越了 XLM-R,且在速度上比以往模型提升了2到4倍,為多語種應用的研究和開發提供了更強大的支持。
mmBERT 的架構分為兩種主要配置:基礎模型和小型模型。基礎模型擁有22層變換器,隱藏層維度為1152,總參數量約為3.07億,而小型模型的參數量則為1.4億。mmBERT 采用了先進的 Gemma2分詞器,支持256k 的詞匯量,利用旋轉位置嵌入(RoPE)和 FlashAttention2技術,顯著提高了處理效率。同時,該模型的序列長度從1024個令牌擴展到8192個令牌,意味著其可以處理更長的上下文信息。
在訓練數據方面,mmBERT 使用了來自多個來源的3萬億個令牌,覆蓋了1833種語言。其中,英語在整個語料庫中僅占10% 至34%。訓練分為三個階段:預訓練、階段中訓練和衰減階段。在每個階段中,模型逐步接觸更多的語言和更高質量的數據,這種方法有助于提高低資源語言的表現。
mmBERT 在多個基準測試中展現了其卓越的性能。在英語自然語言理解(GLUE)任務中,mmBERT 的基礎模型得分為86.3,超越了 XLM-R 的83.3。在多語種自然語言理解(XTREME)任務中,mmBERT 的得分為72.8,也高于 XLM-R 的70.4。此外,在嵌入任務和代碼檢索任務中,mmBERT 同樣表現出色,顯示出其在多種應用場景中的潛力。
通過對低資源語言的特別關注,mmBERT 確保這些語言在訓練過程中也能得到充分的利用。在多項基準測試中,mmBERT 在法羅語和提格雷尼亞語等低資源語言的表現均優于其他大型模型,證明了編碼器模型在經過精心訓練后,可以有效應對低資源場景的挑戰。
mmBERT 不僅提升了多語種處理的速度和效率,還為下一代的多語種自然語言處理系統奠定了堅實的基礎。它以高效、開放的方式重新定義了多語種編碼器的潛力,標志著一個新時代的到來。
github:https://github.com/JHU-CLSP/mmBERT?tab=readme-ov-file
劃重點:





京公網安備 11011402013531號