IT之家 12 月 3 日消息,法國人工智能初創(chuàng)企業(yè) Mistral AI 當(dāng)?shù)貢r間 2 日宣布推出其新一代 Mistral 3 系列模型,包括其采用稀疏架構(gòu)的首款混合專家模型 Mistral Large 和三款小型密集模型。
Mistral Large 總參數(shù)量為 675B,活躍參數(shù)規(guī)模為 41B;Minstral 3“三兄弟”的參數(shù)規(guī)模分別為 14B、8B、3B。這些模型及衍生版本均以 Apache 2.0 許可證開源。
Mistral AI 表示,使用 3000 塊英偉達(dá) H200 GPU 從頭訓(xùn)練的 Mistral Large 3 是全球頂尖的開放權(quán)重模型之一。
![]()
![]()
在經(jīng)過后訓(xùn)練后,該模型在通用提示方面與市場上最佳的指令微調(diào)開放權(quán)重模型達(dá)到了同等水平,同時在多語言對話方面展示了圖像理解和行業(yè)頂尖性能。Mistral Large 3 在 LMArena 排行榜的 OSS 非推理模型類別中位列第二,OSS 總榜第六。
![]()
對于參數(shù)較小的 Minstral 3,Mistral AI 稱其實(shí)現(xiàn)了所有 OSS 模型中最佳的性價比,這些模型的指令變體在性能上與同類模型相當(dāng)或更優(yōu),同時生成的 token 數(shù)量通常降低了一個數(shù)量級。
![]()





京公網(wǎng)安備 11011402013531號