機(jī)器之心報(bào)道
編輯:Panda
剛剛,「歐洲的 DeepSeek」Mistral AI 剛剛發(fā)布了新一代的開放模型 Mistral 3 系列模型。
![]()
該系列有多個(gè)模型,具體包括:
「世界上最好的小型模型」:Ministral 3(14B、8B、3B),每個(gè)模型都發(fā)布了基礎(chǔ)版、指令微調(diào)版和推理版。一款前沿級開源 MoE:Mistral Large 3,總參數(shù)量 675B,激活參數(shù) 41B。
Mistral 表示:「所有模型均采用 Apache 2.0 許可證發(fā)布。以多種壓縮格式開源我們的模型,能夠賦能開發(fā)者社區(qū),并通過分布式智能將 AI 交到人們手中。」
該公司也聲稱:「Ministral 模型代表了同類產(chǎn)品中最佳的性價(jià)比。與此同時(shí),Mistral Large 3 也躋身于前沿指令微調(diào)開源模型的行列。」
該系列模型一發(fā)布就吸引了無數(shù)眼球,有人表示這標(biāo)志著歐洲重返了由中美主導(dǎo)的 AI 競賽。
![]()
![]()
![]()
不過 Mistral 在基準(zhǔn)展示上的操作也讓一些開發(fā)者表示了質(zhì)疑:
![]()
Mistral Large 3:一款 SOTA 開放模型
Mistral 表示,Mistral Large 3 是在 3000 臺 NVIDIA H200 GPU 上從頭開始訓(xùn)練的。
Mistral Large 3 是 Mistral 自開創(chuàng)性的 Mixtral 系列以來的首個(gè)混合專家模型,代表了 Mistral 在預(yù)訓(xùn)練方面邁出的重要一步。經(jīng)過后訓(xùn)練,該模型在通用提示詞上達(dá)到了與市場上最好的指令微調(diào)開放權(quán)重模型同等的水平,同時(shí)展現(xiàn)了圖像理解能力,并在多語言對話(即非英語 / 中文環(huán)境)中表現(xiàn)出一流的性能。
![]()
![]()
值得注意的是,Mistral 在這里并沒有對比剛發(fā)布幾天的 DeepSeek-V3.2 正式版,可能是因?yàn)?DeepSeek 沒有發(fā)布在普通語言任務(wù)上的基準(zhǔn)測試結(jié)果,僅給出了推理和智能體任務(wù)的基準(zhǔn)結(jié)果。
![]()
Mistral Large 3 在 LMArena 排行榜的 OSS(開源軟件)非推理模型類別中首次亮相即排名第 2(在所有開放模型中排名第 6),是性能最好的開放模型之一。
![]()
Mistral 表示,Mistral Large 3 還有推理(Reasoning)版本,也即將推出。
Mistral、NVIDIA、vLLM 和 Red Hat 聯(lián)手,提供更快、更易用的 Mistral 3
Mistral 還宣布與 vLLM 和 Red Hat 達(dá)成了合作,讓開源社區(qū)可以非常便捷地獲取 Mistral Large 3:「我們發(fā)布了一個(gè)采用 NVFP4 格式的檢查點(diǎn)(checkpoint),該檢查點(diǎn)使用 llm-compressor 構(gòu)建。這個(gè)經(jīng)過優(yōu)化的檢查點(diǎn)讓您能夠使用 vLLM 在 Blackwell NVL72 系統(tǒng)以及單個(gè) 8×A100 或 8×H100 節(jié)點(diǎn)上高效運(yùn)行 Mistral Large 3。」
另外,他們還強(qiáng)調(diào)與英偉達(dá)的合作:「交付先進(jìn)的開源 AI 模型需要廣泛的優(yōu)化,這通過與 NVIDIA 的合作得以實(shí)現(xiàn)。我們所有的新 Mistral 3 模型,從 Large 3 到 Ministral 3,都在 NVIDIA Hopper GPU 上進(jìn)行了訓(xùn)練,以利用高帶寬 HBM3e 內(nèi)存來處理前沿規(guī)模的工作負(fù)載。NVIDIA 的極致協(xié)同設(shè)計(jì)(co-design)方法將硬件、軟件和模型融為一體。NVIDIA 工程師為整個(gè) Mistral 3 系列實(shí)現(xiàn)了對 TensorRT-LLM 和 SGLang 的高效推理支持,從而實(shí)現(xiàn)高效的低精度執(zhí)行。
針對 Large 3 的稀疏 MoE 架構(gòu),英偉達(dá)集成了最先進(jìn)的 Blackwell 注意力和 MoE 內(nèi)核,增加了對預(yù)填充 / 解碼分離服務(wù)的支持,并與 Mistral 在推測性解碼(方面進(jìn)行合作,使開發(fā)者能夠在 GB200 NVL72 及更高版本的硬件上高效地服務(wù)長上下文、高吞吐量的工作負(fù)載。在邊緣端,NVIDIA 為 DGX Spark、RTX PC 和筆記本電腦以及 Jetson 設(shè)備提供了 Ministral 模型的優(yōu)化部署方案,為開發(fā)者提供了一條從數(shù)據(jù)中心到機(jī)器人運(yùn)行這些開放模型的一致且高性能的路徑。」
Ministral 3:邊緣端的頂尖智能
Mistral 針對邊緣和本地用例,還發(fā)布了 Ministral 3 系列,提供三種模型尺寸:3B、8B 和 14B 參數(shù)。
此外,對于每種尺寸,他們都向社區(qū)發(fā)布了基礎(chǔ)版(base)、指令版(instruct)和推理版(reasoning)變體,每種都具備圖像理解能力,且全部采用 Apache 2.0 許可證。
![]()
Mistral 重點(diǎn)強(qiáng)調(diào):「Ministral 3 實(shí)現(xiàn)了所有開源模型中最佳的性價(jià)比。在實(shí)際用例中,生成的 token 數(shù)量和模型大小同等重要。Ministral 指令模型與其同類模型的性能相當(dāng)或更好,同時(shí)生成的 token 數(shù)量通常要少一個(gè)數(shù)量級。」
另外,Ministral 推理變體可以進(jìn)行更長時(shí)間的思考,以在其權(quán)重級別中產(chǎn)生最先進(jìn)的準(zhǔn)確性 —— 例如,其 14B 變體在 AIME ‘25 上達(dá)到了 85% 的準(zhǔn)確率。
![]()
![]()
![]()
(預(yù)訓(xùn)練基準(zhǔn))
![]()
![]()
![]()
(指令基準(zhǔn))
![]()
![]()
![]()
(推理基準(zhǔn))
即日可用
Mistral 3 即日起可在 Mistral AI Studio、Amazon Bedrock、Azure Foundry、Hugging Face (Large 3 & Ministral)、Modal、IBM WatsonX、OpenRouter、Fireworks、Unsloth AI 和 Together AI 上使用。此外,這些模型也即將在 NVIDIA NIM 和 AWS SageMaker 上線。
Mistral AI 定制服務(wù)
對于尋求量身定制 AI 解決方案的組織,Mistral AI 也提供了定制模型訓(xùn)練服務(wù),以微調(diào)或完全適配模型來滿足自己的特定需求。
該公司表示:「無論是針對特定領(lǐng)域任務(wù)進(jìn)行優(yōu)化、提高在專有數(shù)據(jù)集上的性能,還是在獨(dú)特環(huán)境中部署模型,我們的團(tuán)隊(duì)都會與您合作構(gòu)建符合您目標(biāo)的 AI 系統(tǒng)。對于企業(yè)級部署,定制訓(xùn)練可確保您的 AI 解決方案安全、高效且大規(guī)模地交付最大影響力。」
結(jié)語
Mistral 早期的模型采用 Apache 2.0 開源許可,屬于真正開放權(quán)重;但隨著公司推出更大型、更高性能的旗艦?zāi)P停ㄈ?Mistral Large),逐步轉(zhuǎn)向閉源與商業(yè)授權(quán)。可以說, Mistral 此次全線回歸 Apache 2.0 協(xié)議,某種程度上是被 DeepSeek「逼」出來的戰(zhàn)略調(diào)整。
在過去的一段時(shí)間里,DeepSeek 以極致的推理成本和激進(jìn)的開源策略迅速搶占了全球開發(fā)者社區(qū)的心智,一度讓堅(jiān)持「開放權(quán)重但限制商用」的中間派廠商陷入被動。
Mistral 3 的發(fā)布,可以看作是這家法國獨(dú)角獸對 DeepSeek 發(fā)起的正面追趕:不僅在 MoE(混合專家)架構(gòu)上繼續(xù)深耕,更試圖通過端側(cè)模型(Ministral)的差異化優(yōu)勢,在被中美巨頭擠壓的縫隙中殺出一條血路。
https://mistral.ai/news/mistral-3
https://x.com/MistralAI/status/1995872766177018340





京公網(wǎng)安備 11011402013531號