IT之家 12 月 4 日消息,科技媒體 Wccftech 昨日(12 月 3 日)發(fā)布博文,報道稱在“混合專家”模型上,英偉達的 GB200 NVL72 AI 服務(wù)器取得重大性能突破。
基于開源大語言模型 Kimi K2 Thinking、Deepseek-R1-0528、Mistral Large 3 測試,相比上一代 Hopper HGX 200 性能提升 10 倍。
![]()
![]()
![]()
IT之家注:混合專家模型(MoE)是一種高效的 AI 大模型架構(gòu)。它不像傳統(tǒng)模型那樣在處理每個任務(wù)時都動用全部“腦力”(參數(shù)),而是像一個專家團隊,根據(jù)任務(wù)類型只激活一小部分最相關(guān)的“專家”(參數(shù)子集)來解決問題。這樣做能顯著降低計算成本,提高處理速度。
![]()
就像人腦使用特定區(qū)域執(zhí)行不同任務(wù)一樣,混合專家模型使用路由器來選擇最相關(guān)的專家來生成每個 token。
![]()
自 2025 年初以來,幾乎所有領(lǐng)先的前沿模型都采用 MoE 設(shè)計
英偉達為了解決 MoE 模型擴展時遇到的性能瓶頸,采用了“協(xié)同設(shè)計”(co-design)的策略,該方法整合了 GB200 的 72 芯片配置、高達 30TB 的快速共享內(nèi)存、第二代 Transformer 引擎以及第五代 NVlink 高速互聯(lián)技術(shù)。
通過這些技術(shù)的協(xié)同工作,系統(tǒng)能夠高效地將 Token 批次拆分并分配到各個 GPU,同時以非線性速率提升通信量,從而將專家并行計算(expert parallelism)提升至全新水平,最終實現(xiàn)了性能的巨大飛躍。
除了硬件層面的協(xié)同設(shè)計,英偉達還實施了多項全棧優(yōu)化措施來提升 MoE 模型的推理性能。例如,NVIDIA Dynamo 框架通過將預(yù)填充(prefill)和解碼(decode)任務(wù)分配給不同的 GPU,實現(xiàn)了任務(wù)的解耦服務(wù),允許解碼階段以大規(guī)模專家并行方式運行。
![]()
同時,系統(tǒng)還采用了 NVFP4 格式,這種數(shù)據(jù)格式在保持計算精度的同時,進一步提高了性能和效率,確保了整個 AI 計算流程的高效穩(wěn)定。
該媒體指出,此次 GB200 NVL72 取得的性能突破,對英偉達及其合作伙伴具有重要意義。這一進展成功克服了 MoE 模型在擴展時面臨的計算瓶頸,從而能夠滿足日益增長的 AI 算力需求,并鞏固了英偉達在 AI 服務(wù)器市場的領(lǐng)先地位。
![]()
![]()
GB200 NVL72,圖源:英偉達





京公網(wǎng)安備 11011402013531號