5 月 24 日消息,當(dāng)?shù)貢r(shí)間周四,英偉達(dá)宣布其 Blackwell GPU 在 4000 億參數(shù)的 meta Llama 4 Maverick 模型上成功打破了 LLM 推理速度世界紀(jì)錄。
據(jù)介紹,AI 基準(zhǔn)測試機(jī)構(gòu) Artificial Analysis 通過配置 8 塊 Blackwell GPU 的 DGX B200 節(jié)點(diǎn),首次實(shí)現(xiàn)每用戶每秒生成 1000 個(gè) token(TPS)的性能里程碑。

英偉達(dá)表示,技術(shù)團(tuán)隊(duì)通過 TensorRT-LLM 軟件棧實(shí)施深度優(yōu)化,并采用 EAGLE-3 技術(shù)訓(xùn)練推測解碼草稿模型,使其性能較優(yōu)化前基準(zhǔn)提升 4 倍。整套服務(wù)器系統(tǒng)在峰值吞吐配置下可達(dá)每秒 72,000 token。
英偉達(dá)解釋稱:“推測解碼是通過小型快速草稿模型預(yù)測 token 序列,再由大型目標(biāo) LLM 并行驗(yàn)證的加速技術(shù)。其優(yōu)勢在于單次迭代可能生成多個(gè) token,代價(jià)是額外的草稿模型計(jì)算開銷。”
為實(shí)現(xiàn)該突破,工程師團(tuán)隊(duì)采用基于 EAGLE3 的軟件架構(gòu)。該架構(gòu)專為大型語言模型推理加速設(shè)計(jì),與 GPU 硬件架構(gòu)形成協(xié)同效應(yīng)。注意到,測試結(jié)果顯示 Blackwell 架構(gòu)已完全適配 Llama 4 Maverick 級別的超大規(guī)模語言模型。

英偉達(dá)還表示,他們在保持響應(yīng)準(zhǔn)確性的同時(shí)大幅提高了性能。在許多指標(biāo)上,使用 FP8 數(shù)據(jù)格式的準(zhǔn)確性與人工分析 BF16 相當(dāng)。

參考資料:





京公網(wǎng)安備 11011402013531號(hào)