![]()
新智元報道
編輯:定慧
Jet-Nemotron是英偉達最新推出的小模型系列(2B/4B),由全華人團隊打造。其核心創新在于提出后神經架構搜索(PostNAS)與新型線性注意力模塊JetBlock,實現了從預訓練Transformer出發的高效架構優化。相比Qwen3、Gemma3、Llama3.2等模型,Jet-Nemotron在數學、代碼、常識、檢索和長上下文等維度上準確率更高,同時在H100 GPU上推理吞吐量最高提升至53倍。
英偉達最近真的癡迷上「小模型」了。
剛剛,英偉達發布了一個全新的混合架構語言模型系列,Jet-Nemotron。
![]()
論文地址:https://arxiv.org/pdf/2508.15884
項目地址:https://github.com/NVlabs/Jet-Nemotron
Jet-Nemotron系列有Jet-Nemotron-2B和Jet-Nemotron-4B大小。
英偉達表示Jet-Nemotron系列「小模型」性能超越了Qwen3、Qwen2.5、Gemma3和 Llama3.2等當前最先進的開源全注意力語言模型。
![]()
同時實現了顯著的效率提升,在H100 GPU上生成吞吐量最高可提升53.6倍。
在右上角的雷達圖中,可以看到Jet-Nemotron簡直就是六邊形戰士。
Jet-Nemotron-4B模型在六個維度MMLU-pro、Math、Retrieval、Commonsense、Code、Long幾乎都拉滿。
![]()
在預填充和解碼階段,Jet-Nemotron-2B在上下文越增加的情況下,相對Qwen 3-1.7B優勢越夸張。
一句話總結就是同等硬件與評測設置下,Jet-Nemotron在長上下文的場景里,把吞吐做到了數量級提升(解碼可達50倍提升)。
同時在常識/數學/代碼/檢索/長上下文等維度的準確率不降反升。
相較傳統全注意力小模型又快又準。
看來,英偉達盯上了小模型Small Model這個領域。
上一周,他們剛剛發布了只有9B大小的NVIDIA Nemotron Nano 2模型。
在復雜推理基準測試中實現了和Qwen3-8B相當或更優的準確率,并且吞吐量最高可達其6倍。
![]()
今天就推出了更小的Jet系列,體量降到了2B和4B模型。
核心創新
Jet-Nemotron有兩項核心創新。
后神經網絡架構搜索(Post Neural Architecture Search,PostNAS),這是一個高效的訓練后架構探索與適應流程,適用于任意預訓練的Transformer模型;
JetBlock,一種新型線性注意力模塊,其性能顯著優于先前的設計,如Mamba2。
PostNAS:訓練后架構探索與適配
與之前從頭開始訓練以探索新模型架構的方法不同,PostNAS在預訓練的Transformer模型基礎上進行構建。
同時支持對注意力塊設計的靈活探索,從而大大降低了開發新語言模型架構的成本和風險。
PostNAS首先確定全注意力層的最佳放置位置,然后再搜索改進的注意力塊設計。
![]()
PostNAS從一個已預訓練的全注意力模型出發,并將MLP凍結。
![]()
隨后對高效注意力塊的設計進行由粗到細的搜索:
先確定全注意力層的最優放置位置,再選擇最合適的線性注意力塊或采用新的線性注意力塊,最后搜索最優的架構超參數。
通過將PostNAS應用于基線模型后,在所有基準測試上都取得了顯著的準確率提升。
![]()
在預訓練的Transformer模型中,并非所有注意力層的貢獻都是相同的。
PostNAS揭示了預訓練Transformer模型中重要的注意力層。
![]()
KV緩存大小是影響長上下文和長生成吞吐量的最關鍵因素。
PostNAS硬件感知搜索能夠發現一些架構,在保持相似生成吞吐量的同時,擁有更多參數并實現更高的準確性。
![]()
JetBlock: 一種具有SOTA準確率的新型線性注意力模塊
通過PostNAS,引入了JetBlock:一種新穎的線性注意力模塊,它將動態卷積與硬件感知架構搜索相結合,以增強線性注意力,在保持與先前設計相似的訓練和推理吞吐量的同時,實現了顯著的準確率提升。
下方使用完全相同的訓練數據和訓練方案,對Mamba2 Block與JetBlock進行了公平的對比。
![]()
性能
Jet-Nemotron-2B和Jet-Nemotron-4B在全面的基準測試中達到或超過了主流高效語言模型(例如Qwen3)的準確率。
同時運行速度明顯更快——分別比Qwen3-1.7B-base快21倍和47倍。
![]()
參考資料:
https://arxiv.org/pdf/2508.15884v1
https://x.com/hancai_hm/status/1960000017235902722
![]()





京公網安備 11011402013531號