夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
GPU編程變天了。
英偉達發布最新版CUDA 13.1,官方直接定性:這是自2006年誕生以來最大的進步。
核心變化是推出全新的CUDA Tile編程模型,讓開發者可以用Python寫GPU內核,15行代碼就能達到200行CUDA C++代碼的性能。
![]()
消息一出,芯片界傳奇人物Jim Keller立即發問:
英偉達是不是親手終結了CUDA的“護城河”?如果英偉達也轉向Tile模型,AI內核將更容易移植到其他硬件上。
![]()
Jim Keller參與設計過AMD Zen架構、蘋果A系列芯片、特斯拉自動駕駛芯片的”硅仙人”,他的判斷在行業里相當有分量。
那么問題來了:CUDA這次到底改了什么?為什么會被認為是”自毀長城”?
GPU編程范式從“線程”到“瓦片”
要理解這次更新的意義,得先回顧一下傳統CUDA編程有多折磨人。
過去20年,CUDA一直采用SIMT(單指令多線程)模型,開發者寫代碼時,需要手動管理線程索引、線程塊、共享內存布局、線程同步,每一個細節都要自己操心。
想要充分利用GPU性能,特別是用上Tensor Core這類專用模塊,更是需要深厚的經驗積累。
CUDA Tile徹底改變了這套玩法:
開發者不再需要逐線程地編寫執行路徑,而是把數據組織成Tile(瓦片),然后定義在這些Tile上執行什么運算。至于怎么把這些運算映射到GPU的線程、Warp和Tensor Core上,編譯器和運行時會自動搞定。
就好像NumPy之于Python。
![]()
英偉達為此構建了兩個核心組件:
CUDA Tile IR是一套全新的虛擬指令集,它在高級語言和硬件之間加了一層抽象,確保基于Tile編寫的代碼能在不同代際的GPU上運行,從當前的Blackwell到未來的架構都能兼容。
cuTile Python則是面向開發者的接口,直接用Python寫GPU內核,門檻一下子從“HPC專家“降到了”會寫Python的數據科學家都可以干。
![]()
另外,這次更新還帶來了一系列面向Blackwell的性能優化:
cuBLAS引入了FP64和FP32精度在Tensor Core上的仿真功能新增的Grouped GEMM API在MoE(混合專家模型)場景下能實現高達4倍加速cuSOLVER的批處理特征分解在Blackwell RTX PRO 6000上相比L40S實現了約2倍的性能提升開發者工具Nsight Compute新增了對CUDA Tile內核的性能分析支持,可以把性能指標直接映射回cuTile Python源代碼。
目前CUDA Tile僅支持Blackwell架構(計算能力10.x和12.x),開發重點集中在AI算法上。英偉達表示未來會擴展到更多架構,并推出C++實現。
硅仙人的質疑:降低門檻是一把雙刃劍
那么Jim Keller為什么說英偉達可能”終結了自己的護城河”?
關鍵就在于Tile編程模型不是英偉達獨有的。AMD、Intel以及其他AI芯片廠商的硬件,在底層架構上同樣可以支持基于Tile的編程抽象。
過去CUDA難以移植,很大程度上是因為SIMT模型與英偉達硬件深度綁定,開發者要針對具體的GPU架構手寫優化代碼。這些代碼換到別家硬件上,要么跑不了,要么性能大打折扣。
但Tile模型天然具有更高的抽象層次。當開發者習慣了“只管定義Tile運算,硬件細節交給編譯器”這種思維方式后,理論上同一套算法邏輯更容易適配到其他支持Tile編程的硬件上。
正如Jim Keller所說:”AI內核將更容易移植。”
不過英偉達也考慮了后手,CUDA Tile IR提供了跨代兼容性,但這種兼容性是建立在CUDA平臺之上的。
開發者寫的代碼確實更容易移植了,但移植的目標是英偉達自家的不同代GPU,而非競爭對手的硬件。
從這個角度看,CUDA代碼可以從Blackwell無縫遷移到下一代英偉達GPU,但要遷移到AMD或Intel的平臺上,依然需要重寫。
不管護城河是加深還是削弱,有一點是確定的:GPU編程的門檻確實在大幅降低。
過去能熟練駕馭CUDA的開發者是稀缺資源,會寫Python的人一抓一大把,但能把代碼優化到跑滿Tensor Core的專家寥寥無幾。
CUDA Tile和cuTile Python打通了這個瓶頸。英偉達在開發者博客中提到,一個15行的Python內核性能可以媲美200行手動優化的CUDA C++代碼。
大量數據科學家和AI研究者從此可以直接上手寫高性能GPU代碼,不用再等HPC專家來幫忙優化。
參考鏈接:
[1]https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware
[2]https://x.com/jimkxa/status/1997732089480024498





京公網安備 11011402013531號