近日,Hugging Face正式推出全新開源語言模型 SmolLM3,一款擁有3B參數(shù)的輕量級(jí)大語言模型(LLM),以其卓越性能和高效設(shè)計(jì)引發(fā)行業(yè)廣泛關(guān)注。SmolLM3不僅在多項(xiàng)基準(zhǔn)測(cè)試中超越同級(jí)別的Llama-3.2-3B和Qwen2.5-3B,甚至與更大規(guī)模的4B參數(shù)模型Gemma3性能相當(dāng)。
地址:https://huggingface.co/blog/smollm3
3B參數(shù),性能直逼4B模型
SmolLM3是一款3B參數(shù)的解碼器專用Transformer模型,采用分組查詢注意力(GQA)和NoPE技術(shù)優(yōu)化,兼顧高效推理和長上下文處理能力。模型在11.2萬億token的多樣化數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,涵蓋網(wǎng)頁、代碼、數(shù)學(xué)和推理數(shù)據(jù),確保其在知識(shí)、推理、數(shù)學(xué)和編碼等領(lǐng)域的強(qiáng)大表現(xiàn)。根據(jù)官方披露,SmolLM3在HellaSwag、ARC、BoolQ等知識(shí)與推理基準(zhǔn)測(cè)試中名列前茅,與4B參數(shù)模型如Qwen3-4B和Gemma3-4B相比毫不遜色,展現(xiàn)了小模型的驚人潛力。
雙模式推理,靈活應(yīng)對(duì)多樣任務(wù)
SmolLM3引入了獨(dú)特的雙模式推理功能,支持“思考”(think)和“非思考”(no-think)兩種模式。在開啟思考模式后,模型在復(fù)雜任務(wù)如AIME2025(36.7% vs9.3%)、LiveCodeBench(30.0% vs15.2%)和GPQA Diamond(41.7% vs35.7%)等測(cè)試中表現(xiàn)出顯著提升。這種靈活的推理模式使其能夠根據(jù)任務(wù)需求動(dòng)態(tài)調(diào)整,兼顧速度與深度推理,滿足從快速問答到復(fù)雜問題求解的多種場(chǎng)景。
支持128K上下文,六種語言無縫切換
SmolLM3在長上下文處理上表現(xiàn)卓越,訓(xùn)練時(shí)支持64K上下文,并通過YaRN技術(shù)可擴(kuò)展至128K token,在Ruler64k測(cè)試中展現(xiàn)了強(qiáng)大的長序列處理能力。此外,模型原生支持六種語言(英語、法語、西班牙語、德語、意大利語、葡萄牙語),并在阿拉伯語、漢語和俄語上進(jìn)行了少量訓(xùn)練,展現(xiàn)出多語言任務(wù)的優(yōu)異性能。在Global MMLU、Flores-200等測(cè)試中,SmolLM3的多語言能力位居同級(jí)別模型前列,為全球化應(yīng)用場(chǎng)景提供了可靠支持。
完全開源,賦能開發(fā)者生態(tài)
Hugging Face一貫秉持開源精神,SmolLM3不僅公開了模型權(quán)重,還完整開源了訓(xùn)練數(shù)據(jù)混合、訓(xùn)練配置和代碼,開發(fā)者可通過Hugging Face的smollm存儲(chǔ)庫獲取詳細(xì)資料。這種透明的“訓(xùn)練藍(lán)圖”極大降低了學(xué)術(shù)研究和商業(yè)應(yīng)用的門檻,允許開發(fā)者基于公開數(shù)據(jù)集和框架復(fù)現(xiàn)或優(yōu)化模型。AIbase認(rèn)為,這一舉措將進(jìn)一步推動(dòng)開源AI生態(tài)的繁榮,為邊緣設(shè)備部署和定制化應(yīng)用提供更多可能性。
高效設(shè)計(jì),邊緣設(shè)備新選擇
SmolLM3專為高效推理設(shè)計(jì),采用分組查詢注意力機(jī)制顯著減少推理時(shí)的KV緩存占用,結(jié)合WebGPU支持,使其非常適合在瀏覽器或邊緣設(shè)備上運(yùn)行。相較于更大規(guī)模的模型,SmolLM3在性能與計(jì)算成本之間找到“帕累托最優(yōu)”平衡點(diǎn),為教育、編碼、客戶支持等場(chǎng)景提供了高性價(jià)比的解決方案。
行業(yè)影響與未來展望
SmolLM3的發(fā)布標(biāo)志著小規(guī)模語言模型在性能與效率上的重大突破。其開源特性、長上下文支持和多語言能力使其成為學(xué)術(shù)研究、初創(chuàng)公司和中小型企業(yè)的理想選擇。AIbase預(yù)計(jì),SmolLM3將在教育、客戶服務(wù)和本地化部署等領(lǐng)域掀起應(yīng)用熱潮,同時(shí)其完全開源的訓(xùn)練流程也將激勵(lì)更多開發(fā)者參與到AI模型的優(yōu)化與創(chuàng)新中。
SmolLM3以3B參數(shù)實(shí)現(xiàn)媲美4B模型的性能,展現(xiàn)了小模型在高效AI領(lǐng)域的無限潛力。Hugging Face通過開源訓(xùn)練細(xì)節(jié)和數(shù)據(jù),為行業(yè)樹立了透明與協(xié)作的典范。我們期待SmolLM3在更多實(shí)際場(chǎng)景中的應(yīng)用表現(xiàn),并將持續(xù)關(guān)注其后續(xù)更新。
結(jié)語
SmolLM3的推出不僅證明了“小型模型,大能量”的可能性,也為開源AI社區(qū)注入了新的活力。無論是開發(fā)者還是企業(yè)用戶,這款高效、多功能的模型都值得一試。





京公網(wǎng)安備 11011402013531號(hào)