隨著人工智能技術(shù)的飛速發(fā)展,語(yǔ)音正迅速成為我們與機(jī)器溝通的主要方式。法國(guó)初創(chuàng)企業(yè) Mistral 近日正式發(fā)布了其首個(gè)開源音頻模型 ——Voxtral,旨在打破大型企業(yè)封閉系統(tǒng)的壟斷,為開發(fā)者提供一個(gè)更靈活且經(jīng)濟(jì)的替代方案。
Mistral 宣稱 Voxtral 是首個(gè)能夠在實(shí)際應(yīng)用中提供 “真正可用的語(yǔ)音智能” 的開源模型。這意味著,開發(fā)者不再需要在低成本的開源系統(tǒng)和高效但封閉的解決方案之間做艱難選擇。Voxtral 以其 “不到一半價(jià)格” 的優(yōu)勢(shì),為企業(yè)提供了一個(gè)更加經(jīng)濟(jì)的選擇。
據(jù) Mistral 介紹,Voxtral 可以轉(zhuǎn)錄長(zhǎng)達(dá)30分鐘的音頻。由于其基于大型語(yǔ)言模型 Mistral Small3.1,用戶能夠理解最長(zhǎng)可達(dá)40分鐘的音頻內(nèi)容。用戶不僅可以提出與音頻內(nèi)容相關(guān)的問題,還能生成摘要,甚至將語(yǔ)音指令轉(zhuǎn)化為實(shí)時(shí)操作,如調(diào)用 API 或執(zhí)行特定功能。此外,Voxtral 還具備多語(yǔ)言支持,能夠理解和轉(zhuǎn)錄英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、葡萄牙語(yǔ)、印地語(yǔ)、德語(yǔ)、荷蘭語(yǔ)和意大利語(yǔ)等多種語(yǔ)言。
Mistral 提供了兩種 “語(yǔ)音理解模型” 的變體。首先是 Voxtral Small,擁有240億個(gè)參數(shù),適用于生產(chǎn)級(jí)部署,并與 ElevenLabs Scribe、GPT-4o-mini 和 Gemini2.5Flash 等競(jìng)爭(zhēng)。其次是 Voxtral Mini,具有30億個(gè)參數(shù),適用于本地和邊緣部署。還有一個(gè)超經(jīng)濟(jì)版的3億參數(shù)模型,稱為 Voxtral Mini Transcribe,專為轉(zhuǎn)錄場(chǎng)景優(yōu)化,其性能承諾超越 OpenAI 的 Whisper,價(jià)格卻不到其一半。
用戶可以通過(guò) Hugging Face 免費(fèi)下載 Voxtral 的 API,或在 Mistral 的聊天機(jī)器人 Le Chat 中進(jìn)行測(cè)試。根據(jù)公司的說(shuō)法,API 的集成費(fèi)用從每分鐘0.001美元起。此次發(fā)布恰逢 Mistral 一個(gè)月前推出的推理模型 Magistral,這些模型通過(guò)逐步解決問題來(lái)提高可靠性。
作為歐洲頂尖的人工智能公司之一,Mistral 一直以來(lái)積極推動(dòng)開源 AI 模型的發(fā)展。值得一提的是,近期有消息稱 Mistral 正在與投資者洽談,計(jì)劃籌集高達(dá)10億美元的資金,其中包括阿布扎比的 MGX 基金。





京公網(wǎng)安備 11011402013531號(hào)