財聯社9月10日訊(編輯 史正丞)全球人工智能算力芯片龍頭英偉達周二宣布,推出專為長上下文工作負載設計的專用GPU Rubin CPX,用于翻倍提升當前AI推理運算的工作效率,特別是編程、視頻生成等需要超長上下文窗口的應用。
英偉達CEO黃仁勛表示,CPX是首款專為需要一次性處理大量知識(數百萬級別tokens),并進行人工智能推理的模型而構建的芯片。
需要說明的是,Rubin就是英偉達將在明年發售的下一代頂級算力芯片,所以基于Rubin的CPX預計也要到2026年底出貨。下一代英偉達旗艦AI服務器的全稱叫做NVIDIA Vera Rubin NVL144 CPX——集成36個Vera CPU、144塊Rubin GPU和144塊Rubin CPX GPU。
![]()
(NVIDIA Vera Rubin NVL144 CPX機架與托盤,公司博客)
英偉達透露,搭載Rubin CPX的Rubin機架在處理大上下文窗口時的性能,能比當前旗艦機架GB300 NVL72高出最多6.5倍。
![]()
據悉,下一代旗艦機架將提供8 exaFLOPs的NVFP4算力,比GB300 NVL72高出7.5倍。同時單個機架就能提供100 TB的高速內存和1.7 PB/s的內存帶寬。
言歸正傳,英偉達之所以要在Rubin GPU邊上再配一塊Rubin CPX GPU,自然是為了顯著提升數據中心的算力效率——用戶購買英偉達的芯片將能賺到更多的錢。英偉達表示,部署價值1億美元的新芯片,將能為客戶帶來50億美元的收入。
為何需要兩個GPU?
作為行業首創之舉,英偉達的新品在硬件層面上分拆了人工智能推理的計算負載。
英偉達介紹稱,推理過程包括兩個截然不同的階段:上下文階段與生成階段,兩者對基礎設施的要求本質上完全不同。
![]()
上下文階段屬于計算受限(compute-bound),需要高吞吐量的處理能力來攝取并分析大量輸入數據,從而生成首個輸出token。相反,生成階段則屬于內存帶寬受限(memory bandwidth-bound),依賴高速的內存傳輸和高帶寬互聯(如 NVlink),以維持逐個token的輸出性能。
當前頂級的GPU都是為了內存和網絡限制的生成階段設計,配備昂貴的HBM內存,然而在解碼階段并不需要這些內存。因此,通過分離式處理這兩個階段,并針對性地優化計算與內存資源,將顯著提升算力的利用率。
據悉,Rubin CPX專門針對“數百萬tokens”級別的長上下文性能進行優化,具備30 petaFLOPs的NVFP4算力、128GB GDDR7內存。
英偉達估計,大約有20%的AI應用會“坐等”首個token出現。例如解碼10萬行代碼可能需要5-10分鐘。而多幀、多秒的視頻,預處理和逐幀嵌入會迅速增加延遲,這也是為什么當前的視頻大模型通常僅用于制作短片。
英偉達計劃以兩種形式提供Rubin CPX,一種是與Vera Rubin裝在同一個托盤上。對于已經下單NVL144的用戶,英偉達也會單獨出售一整個機架的CPX芯片,數量正好匹配Rubin機架。
![]()





京公網安備 11011402013531號