![]()
最近這幾天因為DeepSeek這句話徹底了引爆了國產芯片和股市:DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的參數精度,UE8M0 FP8是針對即將發布的下一代國產芯片設計
沒想到英偉達今天直接放出王炸,推出了一種新的格式NVFP4,這個NVFP4能以 4-Bit 的速度與效率,實現 16-Bit 的生產件級訓練精度,毫不夸張的說使用 NVFP4 進行模型預訓練,標志著 LLM 開發的重大飛躍,這是對如何大規模訓練大型模型的一次根本性轉變
NVFP4 訓練目前仍處于研究階段,正在探索和驗證 4-bit 精度在大型模型預訓練中的潛力。NVIDIA 正在與亞馬遜云科技(AWS)、Cohere、谷歌云、Kimi AI、微軟 AI、Mistral、OpenAI、Perplexity、Reflection 和 Runway 等領先組織積極合作,持續圍繞 NVFP4 進行協同攻關
什么是 4-bit 量化?
4-bit 量化是指將模型權重和激活值的精度降低到僅 4 比特的過程——這與典型的 16-bit 或 32-bit 浮點格式相比是顯著的下降
使用 4-bit 進行預訓練極具挑戰性,因為必須非常小心地處理梯度和更新,以在提高整體訓練速度的同時保持準確性。這需要專門的技術和方法,在將高精度張量映射到更小的一組量化值的同時保持其有效性
更少的比特如何為 AI 工廠解鎖更強能力
訓練后量化(PTQ)已證明 NVFP4 在提升推理吞吐量方面是一個力量倍增器,同時保持了準確性。但一個挑戰仍然存在于上游的預訓練階段——在這里,基礎模型仍然依賴 BF16 或 FP8 來保證穩定性和收斂性。
訓練是 AI 工廠消耗大部分計算、電力和時間的地方。電力預算是固定的,GPU 周期是稀缺資源,因此開發者必須充分利用每一個比特、每一個令牌和每一個訓練周期(epoch)。在這里,吞吐量不是一個抽象的指標——它直接決定了可以構建的模型規模、可以運行的實驗數量以及取得突破的速度。
這正是 4-bit 精度變得具有變革性的地方。通過削減內存需求、提升算術吞吐量和優化通信,4-bit 預訓練使 AI 工廠能夠用相同的硬件處理更多的令牌。通過正確的量化方法,它可以提供與 FP8/BF16 相媲美的準確性,同時顯著提高吞吐量——從而解鎖更快的收斂周期、單位算力下更多的實驗次數,以及擴展到前所未有的前沿模型。換句話說,更少的比特不僅節省了成本——它們還擴展了 AI 所能達到的前沿
核心方法解讀:用于預訓練的 NVFP4 量化方法
為了實現 4-bit 精度的預訓練,英偉達開發了一套專用的 NVFP4 預訓練方法,旨在解決大規模訓練中的核心挑戰:動態范圍、梯度波動性和數值穩定性
Blackwell 是 英偉達 首款原生支持 FP4 格式的架構。GB200 和 GB300 提供的海量 FP4 FLOPs 吞吐量通過加速低精度矩陣運算,同時保持大型模型收斂所需的規模和并行性,實現了高效的 4-bit 訓練
下圖展示了 Blackwell Ultra 的實測 GEMM(通用矩陣乘法)性能,其速度比 Hopper 架構提升了 7 倍。現代 LLM 從根本上依賴矩陣乘法作為其核心計算元素,尤其是在其全連接層或線性層中。這使得這些運算的效率至關重要。由于 FP4 精度能夠實現更快、更高效的運算執行,所觀察到的 GEMM 加速意味著整個預訓練過程——從前向傳播到梯度更新——都運行得更快,從而縮短了訓練時間,同時支持了更大規模模型的快速開發
![]()
為了實現高效的低精度訓練,英偉達的 NVFP4 預訓練方法利用了若干基于其性能和準確性而挑選的關鍵技術。這些技術包括:
通過 NVFP4 的微塊縮放增強數值表示:Blackwell 引入了對 NVFP4 的原生 Tensor Core 支持。NVFP4 是一種用于權重和激活值的 4-bit 數字格式,它使用微塊縮放技術——即每組 16 個 4-bit 元素共享一個共同的縮放因子。與 MXFP4 相比,NVFP4 將塊大小從 32 個元素減少到 16 個,從而最大限度地減少了異常值的影響,并實現了更精確的縮放。這種更精細的粒度降低了量化誤差,并提高了整體模型準確性
使用 E4M3 縮放因子進行 NVFP4 高精度塊編碼:縮放因子的精度對量化質量和準確性起著至關重要的作用。與 MXFP4 不同,MXFP4 僅限于 2 的冪次方的縮放因子(E8M0),容易產生較高的舍入誤差。而 NVFP4 使用更高精度的 E4M3 縮放因子,并帶有額外的尾數位。這允許更細粒度的縮放、更好地利用有限的量化區間,以及更準確地表示塊內的數值
重塑張量分布以適應低精度格式:LLM 預訓練期間的梯度和激活值往往帶有較大的異常值,這會影響低精度量化。對 GEMM 的輸入應用哈達瑪變換(Hadamard transforms)有助于將其分布重塑為更接近高斯分布的形態,從而平滑異常值,使張量更容易被準確表示。這些變換對模型架構是透明的,可以應用于前向和后向傳播中的線性層。
通過量化技術保持保真度:為了確保穩定高效的訓練,英偉達采用的量化方法能夠保持前向傳播和后向傳播之間的一致性。諸如選擇性二維塊式量化等技術有助于在整個訓練周期中維持張量表示的對齊。這種一致性對于最大限度地減少信號失真、改善收斂行為和增強整體魯棒性至關重要——尤其是在使用像 NVFP4 這樣的低精度格式時。
通過隨機舍入減少偏差:與傳統的(確定性)舍入總是將梯度舍入到最接近的可表示數值不同,隨機舍入確保梯度是隨機向上或向下舍入的,其概率與一個數離兩個可表示值之間的距離成正比。這一步驟對于減少舍入偏差、在訓練期間維持梯度流,并最終提高模型準確性至關重要
![]()
實驗驗證:萬億級令牌規模下的準確性與穩定性
為了進行模型訓練,英偉達在一個基于 Mamba-Transformer 混合架構的 120 億參數模型(12B Hybrid Mamba-Transformer model)上,使用 FP8 和 NVFP4 進行了實驗——該模型類似于 NVIDIA Nemotron Nano 2。這個模型在一個包含 10 萬億令牌的大規模數據集上進行訓練,采用了分階段數據混合方法,在訓練的 70% 切換到不同的數據集組合,在 90% 時再次切換。
該 12B 混合 Mamba-Transformer 模型的一個版本最初使用 8-bit 精度(FP8)進行訓練,此前的研究已證明 FP8 能與 16-bit 精度高度匹配,因此英偉達將其作為比較的基準。隨后,研究人員成功地使用 NVFP4 從頭開始訓練了同一個 12B 模型,證明了這種新的低精度格式能夠支持萬億級令牌規模的完整預訓練。NVFP4 的運行展現了穩定的收斂性,沒有出現通常困擾超低精度訓練的訓練不穩定或發散問題
下圖顯示,在整個訓練期間,NVFP4 的驗證損失曲線與更高精度的基準(即 FP8)的損失曲線高度吻合。上文概述的量化技術確保了即使在激進的位寬縮減下,4-bit 預訓練的動態過程也與高精度運行非常相似
![]()
接著,英偉達將使用 NVFP4 預訓練的 12B 混合 Mamba-Transformer 模型與更高精度的 FP8 基準模型在一系列下游任務和智能領域進行了比較。
下圖表明,在所有領域中,NVFP4 的性能都與 FP8 相當,突顯了其有效性。這一發現強化了最初的假設:NVFP4 是一個強大的選擇,即使在萬億級令牌規模下預訓練 LLM 也能勝任——突顯了其在高效大規模前沿模型訓練中的潛力
![]()
很明顯國內以DeepSeek為代表正在推動國產芯片推理和訓練,UE8M0 FP8還僅僅是國產芯片推理側的設計,訓練側任重道遠,國際上英偉達作為壟斷性的存在也沒躺在王座上啥都不干,這個NVFP4作為一個標準估計很快就會顯示出強大威力
參考:
https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/





京公網安備 11011402013531號