![]()
智東西
作者 ZeR0
編輯 漠影
智東西12月16日報道,今日,英偉達推出了NVIDIA Nemotron 3系列開放模型、數據和庫,并公布Nemotron 3 Nano模型的技術報告。
Nemotron 3模型包括Nano、Super、Ultra三種規模,可幫助大規模開發并部署可靠的多智能體系統,實現快速、長上下文推理。
Nemotron 3 Nano:擁有300億參數的小型模型,每次運行最多激活30億參數,適用于針對性、高效的任務,主打高計算成本效益,展現了增強的智能體、推理和聊天能力,針對軟件調試、內容摘要、AI助手工作流及信息檢索等任務進行了優化。Nemotron 3 Super:擁有約1000億參數的高精度推理模型,每個token最多激活100億參數,適用于多智能體應用,在需要多智能體協作完成低延遲復雜任務的應用中表現出色。Nemotron 3 Ultra:擁有約5000億參數的大型推理引擎,每個token最多激活500億參數,適用于復雜的AI應用,可服務于需要深度研究和策略規劃的AI工作流。
Nemotron 3系列模型引入了混合Mamba-Transformer MoE架構、跨交互式環境的強化學習、原生100萬個token的上下文窗口,為多智能體應用實現高吞吐量、長時域推理。
該模型引入了多項創新,直接滿足了智能體系統的需求:
采用混合Mamba-Transformer MoE主干網,實現卓越的測試時間效率和長距離推理能力。圍繞真實世界的智能體任務設計的多環境強化學習。支持深度多文檔推理和長時間運行的智能體記憶的100萬個token上下文長度。一個開放、透明的訓練流程,包括數據、權重和配方。
根據技術報告,相比類似參數規模的開放模型(如GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507),Nemotron 3 Nano實現了多達3.3倍的推理吞吐量。
Nemotron 3 Nano已上線Hugging Face平臺,并通過baseten、Deepinfra、Fireworks、FriendliAI、OpenRouter、Together AI等推理服務商提供。
![]()
Hugging Face地址:huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8
Nemotron 3 Nano體驗地址:build.nvidia.com/nvidia/nemotron-3-nano-30b-a3b
Nemotron 3 Super和Ultra預計將于2026年上半年推出。這兩款模型采用了基于NVIDIA Blackwell架構的超高效4位NVFP4訓練格式和創新的潛在MoE架構,可顯著降低顯存需求,加速訓練進程,提高模型質量。
這兩款更高性能模型,將是明年開源社區期待的重點產品。
除了整套前沿開放模型外,英偉達還發布了面向專業AI智能體開發者的訓練數據集與前沿強化學習庫集合,多方位助力構建高精度、高效的專業AI智能體。
值得關注的是,英偉達并不只是追求基準測試成績,而是通過開源開放,將訓練數據、強化學習環境、訓練代碼等傾囊放出,希望更多開發者得以利用更優質的數據構建更好的模型,大幅降低開發門檻。
Nemotron 3模型權重根據英偉達開放模型許可協議公開發布。英偉達的合成預訓練語料庫(近10萬億個token)可供查閱或重新利用。開發者還可以訪問Nemotron GitHub代碼庫中的詳細訓練和訓練后處理方案,從而實現完全的可復現性和自定義性。
此外,英偉達今日宣布收購AI開源工作負載管理系統提供商SchedMD。SchedMD由Slurm軟件開發人員Morris “Moe” Jette和Danny Auble于2010年在美國加州利弗莫爾創立。其提供開源的Slurm技術,可幫助安排可能占用數據中心服務器容量很大一部分的大型計算作業。
英偉達稱將繼續以開源方式分發SchedMD的軟件,英偉達與SchedMD聯手正在加強開源軟件生態系統,以促進各行各業、各個規模的高性能計算和AI創新。
一、多項基準測試分數超30B Qwen3和20B GPT-OSS
Nemotron 3系列的首款產品Nemotron 3 Nano,專為DGX Spark、H100和B200 GPU設計,實現了高吞吐量效率。
獨立AI基準測試機構Artificial Analysis評定該模型為同等規模模型中兼具極高開放性和效率及高精度的模型。
![]()
![]()
![]()
根據Nemotron 3 Nano技術報告,相比相似規模的Qwen3-30B-A3B-Thinking-2507和GPT-OSS-20B模型,Nemotron 3 Nano在多個基準測試中實現了同等或更好的精度。
![]()
在大多數通用知識、代碼、數學、常識理解,閱讀理解,多語言和長上下文基準中,Nemotron 3 Nano均取得了高于Qwen3-30B-A3B-base模型的分數。
![]()
在數學和科學推理、編程、智能體工具使用、指令遵循、長期上下文理解和多語言能力等綜合性能評估中,Nemotron 3 Nano在所有類別均超過了GPT-OSS 20B和Qwen3-30B-A3B-Thinking-2507。
![]()
在推理基準上,Nemotron 3 Nano超過了Qwen3模型,并與之前在這些類別中最好的模型GPT-OSS比肩。在智能體、聊天和長上下文類別中,Nemotron 3 Nano顯著優于其他兩種模型。
Nemotron系列模型的早期用戶包括埃森哲、Cadence、CrowdStrike、Cursor、德勤、安永、Oracle Cloud Infrastructure、Perplexity、ServiceNow、西門子、新思科技和Zoom。他們正將Nemotron系列模型集成到制造、網絡安全、軟件開發、媒體、通信等行業的AI工作流中。
該模型已上線多個企業級AI與數據基礎設施平臺,包括Couchbase、DataRobot、H2O.ai、JFrog、Lambda及UiPath。
此外,Nemotron 3 Nano將通過Amazon Bedrock(無服務器模式)在亞馬遜云科技(AWS)平臺上提供給使用公有云的客戶,并且也即將支持Google Cloud、Coreweave、Crusoe、Microsoft Foundry、Nebius、Nscale及Yotta。
Nemotron 3 Nano同時以NVIDIA NIM形式提供,可在NVIDIA加速基礎設施上進行安全、可擴展的部署,具有極高的隱私性與可控性。
二、混合Mamba-Transformer、多環境強化學習訓練、4位NVFP4訓練
英偉達意在打造出更實用的模型,這在其模型設計中可見一斑。
1、混合Mamba-Transformer
Nemotron 3將三種架構集成到一個單一的主干網中:
用于高效序列建模的Mamba層;用于精確推理的Transformer層;MoE路由實現可擴展的計算效率。
Mamba擅長以最小的內存開銷跟蹤長距離依賴關系,即使處理數十萬個token也能保持持續的性能。Transformer層通過精細的注意力機制對此進行補充,這些機制可以捕獲代碼操作、數學推理或復雜規劃等任務所需的結構和邏輯關系。
MoE組件在不增加密集計算成本的情況下,顯著提升了有效參數數量。每個token僅激活一部分專家,從而降低延遲并提高吞吐量。這種架構尤其適用于智能體集群,因為在集群中,許多輕量級智能體需要并發運行——每個智能體生成計劃、檢查上下文或執行基于工具的工作流。
![]()
▲Nemotron 3混合架構。該模型將Mamba-2和MoE層與少量自注意力層交錯排列,在保持最先進準確率的同時,極大限度地提高了推理吞吐量。
Nemotron 3 Nano使用25T個token進行訓練,batch size為3072,并采用Warmup-Stable-Decay(WSD)學習率調度策略,其中包含8B個token的學習率預熱階段,峰值學習率為1e-3,最小學習率為1e-5。
模型共有52層,其中23層為MoE層,23層為Mamba-2層,其余6層使用分組查詢注意力機制(GQA),分為2個組。每個MoE層包含128個專家和1個共享專家,每個token激活6個專家。
該模型共有35億個活躍參數和300億個總參數,支持英語、德語、西班牙語、法語、意大利語和日語,使用Qwen進行了改進。
這一設計使其token吞吐量較Nemotron 2 Nano最高提升4倍,并減少了多達60%的推理token生成量,大大降低了推理成本。
![]()
▲Nemotron 3 Nano架構
2、多環境強化學習訓練
為了使Nemotron 3更貼近真實的智能體行為,英偉達使用一個用于構建和擴展強化學習環境的開源庫NeMo Gym在多種環境中對模型進行后訓練。這些環境評估模型執行一系列動作的能力。
這種基于軌跡的強化訓練方法能夠生成在多步驟工作流程中表現可靠的模型,減少推理漂移,并處理智能體管道中常見的各種結構化操作。
這些環境和強化學習數據集,連同NeMo Gym,都是開源的。開發者可在為特定領域任務定制模型時,重用、擴展甚至創建自己的環境。
3、100萬token上下文長度
Nemotron 3的百萬級上下文容量,具有更強的記憶能力,在處理長時間多步驟任務時能更精準地關聯信息,支持對大型代碼庫、長文檔、擴展對話和聚合檢索內容進行持續推理。
智能體不再依賴碎片化的分塊啟發式方法,而是可以將完整的證據集、歷史緩沖區和多階段計劃保存在單個上下文窗口中。
其混合Mamba-Transformer架構能夠高效地處理超大型序列,實現長上下文窗口。MoE路由也降低了每個token的計算量,使得在推理時處理這些大型序列成為可能。
不過由于Hugging Face配置中VRAM要求較高,默認上下文大小為256k。
4、潛在MoE(latent MoE)
Nemotron 3 Super和Ultra引入了潛在MoE,其中專家在將輸出投影回token空間之前,先對共享的潛在表示進行操作。
這種方法使得模型能夠在相同的推理成本下調用4倍的專家,從而更好地針對微妙的語義結構、領域抽象或多跳推理模式進行專門化。
![]()
▲標準MoE與潛在MoE架構對比。在潛在MoE中,token被投影到更小的潛在維度進行專家路由和計算,從而降低通信成本,同時支持更多專家并提高每字節的準確率。
5、多token預測(MTP)
MTP使模型能夠在一次前向傳播中預測多個未來token,顯著提高長推理序列和結構化輸出的吞吐量。
對于規劃、軌跡生成、擴展思維鏈或代碼生成,MTP可降低延遲并提高智能體的響應速度。
![]()
▲多token預測,同時預測多個未來token,在訓練期間將準確率提高約2.4%,同時在推理時實現推測性解碼速度的提升。
6、NVFP4訓練
Super和Ultra模型均采用NVFP4格式進行預訓練。NVFP4是英偉達的4位浮點格式,可在訓練和推理方面提供一流的成本精度比,可顯著降低顯存需求并加速訓練進程。
英偉達為Nemotron 3設計了更新的NVFP4算法,以確保在其25T token預訓練數據集上實現準確穩定的預訓練。預訓練期間的大部分浮點乘加運算均采用NVFP4格式。
這種效率使更大規模模型能在現有基礎設施上進行訓練,不會因更高精度格式而犧牲準確性。
三、推出全新開放工具與數據,用于AI智能體定制
NVIDIA還發布了面向專業AI智能體開發者的訓練數據集與前沿強化學習庫集合,以前所未有的透明度展現了高性能、可信賴的模型是如何構建的。
3萬億token規模的全新Nemotron預訓練、后訓練及強化學習數據集,為開發高性能特定領域智能體提供了豐富的推理、編碼及多步驟工作流范例。
Nemotron Agentic Safety數據集則提供真實場景的遙測數據,幫助團隊評估并提升復雜智能體系統的安全性。
新數據集亮點包括:
Nemotron預訓練3萬億個token的數據集,對代碼、數學和推理的覆蓋范圍更廣,并通過合成增強和標注管道得到增強。Nemotron后訓練3.0:包含1300萬個樣本的語料庫,用于監督微調和強化學習,為 Nemotron 3 Nano的對齊和推理提供支持。Nemotron-RL數據集:精選的強化學習數據集和環境集合,用于工具使用、規劃和多步驟推理。Nemotron智能體安全數據集:包含近11000個AI智能體工作流程軌跡的集合,旨在幫助研究人員評估和減輕智能體系統中新出現的安全風險。
為加速開發進程,英偉達發布了NeMo Gym與NeMo RL開源庫,為Nemotron模型提供訓練環境及后訓練基礎,同時還推出用于驗證模型安全性和性能的NeMo evaluator。
結合英偉達NeMo Gym、RL、Data Designer和evaluator等開源庫,上述開源數據集使開發者能夠訓練、增強和評估他們自己的Nemotron模型。
這些工具及數據集已上線GitHub和Hugging Face平臺。
Nemotron 3已獲得LM Studio、llama.cpp、SGLang和vLLM支持。此外,Prime Intellect與Unsloth正將NeMo Gym的即用型訓練環境直接集成至其工作流,使團隊能夠更加快速、便捷地獲得強大的強化學習訓練能力。
同時,英偉達維護著一個開源的Nemotron GitHub代碼庫,其中包括:
預訓練方案(已提供)展示了Nemotron 3 Nano的訓練方式;用于多環境優化的強化學習對齊方法;數據處理流程、分詞器配置和長上下文設置;未來的更新將包括更多訓練后調整和微調的配方。
GitHub存儲庫提供了文檔、配置和工具,可端到端地重現關鍵步驟。
使用英偉達的開放資源,用戶可以運行模型、部署模型、檢查模型的構建方式,以及訓練自己的模型。
四、四個階段訓練方法公開
英偉達已披露NVIDIA-Nemotron-3-Nano-30B-A3B-BF16模型的訓練方法。
該模型使用英語以及其他19種語言和43種編程語言進行訓練。其數據源涵蓋多種文檔類型,如網頁、對話、文章和其他書面材料,語料庫涉及法律、數學、科學、金融等多個領域。
為了提高模型準確率,英偉達還加入了一小部分問答和對齊類型的數據。該模型使用約25萬億個token進行訓練。
該模型的的后訓練語料庫包含高質量的精選數據和合成數據。后訓練使用的主要語言包括英語、德語、西班牙語、法語、意大利語和日語。
第一階段:預訓練
NVIDIA-Nemotron-3-Nano-30B-A3B-base-BF16模型使用爬取和合成的代碼、數學、科學和通用知識數據進行預訓練。所有數據集均在Hugging Face上披露。預訓練語料庫的大部分已發布在Nemotron-Pre-Training-Datasets數據集中。
預訓練所用軟件:Megatron-LM
第二階段:監督式微調
該模型在合成代碼、數學、科學、工具調用、指令執行、結構化輸出和通用知識數據上進行了進一步的微調。所有數據集均已公開。微調語料庫的主要部分已發布在Nemotron-Post-Training-v3數據集中。
用于監督式微調的軟件:Megatron-LM
第三階段:強化學習
該模型在數學、代碼、科學、指令跟隨、多步驟工具使用、多輪對話和結構化輸出等多種環境下,采用同步GRPO(群體相對策略優化)進行多環境強化學習。對話質量通過使用生成式獎勵模型的RLHF進一步提升。
所有數據集均在本文檔的“訓練、測試和評估數據集”部分中公開。強化學習環境和數據集已作為NeMo Gym的一部分發布。
用于強化學習的軟件:NeMo RL、NeMo Gym
第四階段:訓練后量化
包含KV緩存的模型被量化為FP8。為了在提高效率的同時保持準確性,英偉達采用了選擇性量化策略,將注意力層和輸入到這些注意力層的Mamba層保留為BF16。
用于量化的軟件:模型優化器
NVIDIA-Nemotron-3-Nano-30B-A3B-FP8模型是上述工作的成果。完整的端到端訓練方案可在NVIDIA Nemotron開發者代碼庫中找到。評估結果可使用NeMo evaluator SDK進行復現。
結語:瞄準多智能體系統,追求透明與高效
“開放創新是AI進步的基礎。通過Nemotron,我們將先進AI轉化成開放平臺,為開發者提供構建大規模代理式系統所需的透明度與效率。”英偉達創始人兼CEO黃仁勛說。
隨著企業從單模型對話機器人轉向協作式多智能體AI系統,開發者面臨通信開銷、上下文漂移和高推理成本等挑戰。此外,開發者需要模型具備透明度,才能信任其用于自動化復雜工作流。
Nemotron 3開放模型則直面這些挑戰,提供開發專業化代理式AI所需的性能與開放性,使初創公司能夠更快開發和迭代AI智能體,并加快從原型到企業級部署的創新進程。
單一工作流中,在前沿模型與Nemotron之間進行任務路由,不僅能提供更強大的智能體,還可以優化token經濟效益。
英偉達不僅僅是把目光放在單個模型上,而是押注于更龐大的智能體系統。要能對這些系統委以信任,開放、透明、可檢查的基礎架構至關重要。
Mayfield管理合伙人Navin Chaddha認為,英偉達的開放模型堆棧與NVIDIA初創加速計劃為初創公司提供了各類模型、工具及經濟高效的基礎設施,助力其開展試驗、實現差異化發展并快速擴展規模。Nemotron 3可以讓創始人在構建代理式AI應用和AI隊友方面取得先機,并幫助他們利用NVIDIA龐大的用戶基礎。





京公網安備 11011402013531號