henry 發自 凹非寺
量子位 | 公眾號 QbitAI
老黃對token密集型任務下手了。
剛剛,在AI Infra Summit上,英偉達宣布推出專為處理百萬token級別的代碼生成和生成式視頻應用的全新GPU——
NVIDIA Rubin CPX GPU
![]()
老黃表示:Rubin CPX是首款為超大上下文AI量身定制的CUDA GPU,可以讓模型“一口氣”推理數百萬token。
而且,RubinCPX還能讓你越用越省錢:每投資1億美元,就能獲得50億美元的token收益。(50倍,你就賺吧,老黃說的)
對于“老黃畫的餅”,CursorRunwayMagic等行業大佬也表示RubinCPX將分別在代碼生產力生成式影像創作、以及大模型自主代理上帶來突破。
那么好了好了,這GPU到底什么來頭?
首款專為超大上下文AI打造的CUDA GPU
Rubin CPX基于NVIDIA Rubin架構,采用單片設計,內置NVFP4計算資源,主打AI推理的高性能和高能效。
它的性能提升,主要體現在以下幾個方面:
在NVFP4精度下可提供高達30PFLOPS算力,做到性能與精度兼顧。配備128GB高性價比GDDR7內存,應對最苛刻的上下文工作負載。
– 與NVIDIA GB300 NVL72系統相比,注意力機制處理速度提升3倍,讓模型在處理更長上下文序列時也不掉速。
在這里,我們可以簡單地拿A100來對比一下。
在算力方面,相較于A100的FP16精度,Rubin CPX專門優化過的NVFP4可以實現幾個量級的性能提升。
而在內存方面,NVIDIA A100是40GB80GB,Rubin CPX則直接干到了128GB,讓超大上下文處理毫無壓力。
![]()
(注:在處理超大上下文任務時,GPU內存容量至關重要:模型需要一次性加載數百萬token的權重、激活值和中間計算結果,如果內存不夠,就只能分批處理,既影響速度,也限制模型規模)
單片就已經這么強,組合還可以讓它更厲害!
英偉達表示,Rubin CPX還可以與NVIDIA Vera CPU和Rubin GPU協同工作,構成全新的NVIDIA Vera Rubin NVL144 CPX平臺。
該平臺在單機架內提供8EFLOPS的AI算力+100TB高速內存+每秒1.7PB的內存帶寬,較NVIDIA GB300 NVL72系統的AI性能提升了7.5倍。
*(注:1EFLOPS = 1000PFLOPS )
還沒完,在此基礎上,NVIDIA Vera Rubin NVL144 CPX還可以接入Quantum?X800 InfiniBand 或Spectrum?X以太網平臺,實現大規模多機互聯計算,讓性能再上一個臺階。
預計明年正式推出
就像前面提到的,NVIDIA Rubin CPX 在長上下文處理上實現了最高性能和最高token收益——遠超現有系統的設計極限。
老黃表示,這將像RTX 革新了圖形和物理AI一樣,改變AI時代的上下文推理能力。
在實際應用中,它能把AI編程助手從簡單的代碼生成工具,升級為能夠理解并優化大規模軟件項目的復雜系統。
在視頻處理方面,由于AI模型分析一小時內容就可能涉及上百萬token,突破了傳統GPU的算力極限。
為此,Rubin CPX將視頻解碼、編碼和長上下文推理處理集成在單芯片中,為視頻搜索和高質量生成式視頻等長時格式應用提供前所未有的能力。
此外,Rubin CPX將得到NVIDIA完整AI軟件棧支持,從加速基礎設施到企業級軟件一應俱全。
最后,NVIDIA Rubin CPX預計將于2026年底正式推出。
Token密集型任務就要不密集了(一年后版)
[1]https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference
[2]https://www.runpod.io/articles/guides/nvidia-a100-gpu?utm_source=chatgpt.com





京公網安備 11011402013531號