9月19日,小米公司宣布開源其首個原生端到端語音大模型 Xiaomi-MiMo-Audio,這一創(chuàng)新成果標(biāo)志著語音技術(shù)領(lǐng)域的一次重大突破。五年前,GPT-3的出現(xiàn)開啟了語言通用人工智能(AGI)的新紀(jì)元,但語音領(lǐng)域一直受限于對大規(guī)模標(biāo)注數(shù)據(jù)的依賴,難以實現(xiàn)類似的語言模型的少樣本泛化能力。如今,小米推出的 Xiaomi-MiMo-Audio 模型基于創(chuàng)新的預(yù)訓(xùn)練架構(gòu)和上億小時的訓(xùn)練數(shù)據(jù),首次在語音領(lǐng)域?qū)崿F(xiàn)了基于 In-Context Learning(ICL)的少樣本泛化,并在預(yù)訓(xùn)練過程中觀察到了明顯的“涌現(xiàn)”行為。
Xiaomi-MiMo-Audio 模型在多個標(biāo)準(zhǔn)評測基準(zhǔn)中表現(xiàn)出色,其性能不僅超越了同參數(shù)量的開源模型,還在音頻理解基準(zhǔn) MMAU 的標(biāo)準(zhǔn)測試集上超過了 Google 的閉源語音模型 Gemini-2.5-Flash,并在音頻復(fù)雜推理基準(zhǔn) Big Bench Audio S2T 任務(wù)中超越了 OpenAI 的閉源語音模型 GPT-4o-Audio-Preview。這一成果不僅展示了小米在語音技術(shù)領(lǐng)域的深厚實力,也為語音 AI 的發(fā)展提供了新的方向。
小米此次開源的 Xiaomi-MiMo-Audio 模型具有多項創(chuàng)新和首次突破。首先,該模型首次證明了將語音無損壓縮預(yù)訓(xùn)練擴展至1億小時可以“涌現(xiàn)”出跨任務(wù)的泛化性,表現(xiàn)為少樣本學(xué)習(xí)能力,這被看作是語音領(lǐng)域的“GPT-3時刻”。其次,小米是首個明確語音生成式預(yù)訓(xùn)練的目標(biāo)和定義的公司,并開源了一套完整的語音預(yù)訓(xùn)練方案,包括無損壓縮的 Tokenizer、全新模型結(jié)構(gòu)、訓(xùn)練方法和評測體系,開啟了語音領(lǐng)域的“LLaMA時刻”。此外,Xiaomi-MiMo-Audio 是首個將思考過程同時引入語音理解和語音生成過程中的開源模型,支持混合思考。
小米采取了簡單、徹底和直接的開源風(fēng)格,以促進(jìn)語音研究領(lǐng)域的加速發(fā)展。開源內(nèi)容包括預(yù)訓(xùn)練模型 MiMo-Audio-7B-base 和指令微調(diào)模型 MiMo-Audio-7B-Instruct,以及 Tokenizer 模型、技術(shù)報告和評估框架。MiMo-Audio-7B-Instruct 模型可通過 prompt 切換 non-thinking 和 thinking 兩種模式,強化學(xué)習(xí)起點高、潛力足,可作為研究語音 RL 和 Agentic 訓(xùn)練的全新基座模型。Tokenizer 模型具有1.2B參數(shù)量,采用 Transformer 架構(gòu),兼顧效率與性能,從頭開始訓(xùn)練,覆蓋超過千萬小時語音數(shù)據(jù),同時支持音頻重建任務(wù)和音頻轉(zhuǎn)文本任務(wù)。技術(shù)報告全面展示了模型和訓(xùn)練細(xì)節(jié),而評估框架則支持10多個測評任務(wù),已開源至 GitHub。
小米公司表示,Xiaomi-MiMo-Audio 的開源將顯著加速語音大模型研究對齊到語言大模型,為語音 AGI 的發(fā)展提供重要基礎(chǔ)。小米將持續(xù)開源,期待與每一位同行者攜手,用開放與協(xié)作,邁向語音 AI 的“奇點”,走進(jìn)未來的人機交互時代。
https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct





京公網(wǎng)安備 11011402013531號