![]()
新智元報道
編輯:定慧 好困
壟斷全球的CUDA,迎來重大更新。
就在這個周末,英偉達(dá)干了兩件大事。
不僅在硬件底層生態(tài)上扔下了一枚深水炸彈,還在軟實力上秀了一把肌肉。
兩件大事:
1.軟件生態(tài)的「地基」重塑:NVIDIA CUDA 13.1正式推出。這是CUDA平臺誕生二十年來最大、最全面的一次更新。它引入了CUDA Tile編程模型,旨在屏蔽底層硬件細(xì)節(jié),讓開發(fā)者能更輕松地駕馭下一代GPU(如Blackwell)的恐怖性能。
2.贏下AGI比賽:Kaggle ARC Prize 2025競賽中,特級大師團(tuán)隊KGMoN以27.64%的分?jǐn)?shù)奪得冠軍。令人震驚的是,他們使用的并非千億參數(shù)的巨型模型,而是一個僅4B的小模型變體,單次任務(wù)推理成本僅需20美分。
這周五,來自英偉達(dá)的Ivan Sorokin和Jean-Francois Puget,在Kaggle ARC Prize 2025的公開榜單上,以27.64%的分?jǐn)?shù)奪得冠軍。
這場比賽被業(yè)內(nèi)許多人視為衡量人類向通用AGI進(jìn)度的「實時晴雨表」。
![]()
值得一提的是,他們的方案是在ARC-AGI-2基準(zhǔn)測試背后的同一數(shù)據(jù)集上進(jìn)行評估的。
NVARC一下子超過Claude Opus 4.5,并且成本很低(注意橫軸每個任務(wù)消耗為對數(shù)坐標(biāo)軸)!
![]()
與此同時,英偉達(dá)還推出了自CUDA平臺誕生二十年以來最大、最全面的更新——NVIDIA CUDA 13.1。
NVIDIA CUDA Tile:基于Tile的編程模型,用于屏蔽包括Tensor Core在內(nèi)的專用硬件底層細(xì)節(jié)。
Green Context:正式向運行時API開放。
NVIDIA cuBLAS:支持雙精度和單精度模擬。
CUDA編程指南:完全重寫,專為CUDA新手和資深程序員設(shè)計。
![]()
拿下AGI「圣杯」
4B小模型碾壓全場
如今,ARC-AGI已經(jīng)成為了觀察AI通用推理真正進(jìn)展的,最受關(guān)注的指標(biāo)之一。
跟典型的機(jī)器學(xué)習(xí)基準(zhǔn)不同,ARC-AGI的任務(wù)沒法靠堆規(guī)模、死記硬背或者抓取模式來搞定。
它是AI界公認(rèn)的「智商測試」,由Keras之父Fran?ois Chollet提出,專門測試AI面對陌生問題的舉一反三能力,而不僅僅是死記硬背。
![]()
核心秘訣:320萬合成數(shù)據(jù)的「暴力美學(xué)」
NVARC方案最震撼的地方,在于他們構(gòu)建了一個極其復(fù)雜的合成數(shù)據(jù)生成流水線。
他們沒有依賴原本稀缺的幾百個訓(xùn)練題,而是自己造了320萬個!
他們的邏輯很簡單:如果AI沒見過類似的推理題,那就生成無窮無盡的類似題目讓它看個夠。
思路:合成數(shù)據(jù)、測試時訓(xùn)練(Test-timetraining)以及嚴(yán)謹(jǐn)?shù)墓こ袒?/strong>。
![]()
數(shù)據(jù)生成的「四步走」戰(zhàn)略
他們使用了一個120B參數(shù)的開源大模型(gpt-oss-120b),通過NeMo-Skills框架搭建了如下流水線:
![]()
收集描述(Descriptions):收集ARC題目的人類自然語言描述(比如「把紅色方塊向右移動直到碰到墻壁」)。
混合重組(MixSummaries):讓LLM將兩個不同謎題的描述「雜交」,生成一個新的、更復(fù)雜的謎題描述。這一步生成了26萬+的新創(chuàng)意。
生成輸入邏輯(InputLogic):這是最關(guān)鍵的一步!他們不直接生成像素圖,而是讓LLM寫Python代碼來生成輸入網(wǎng)格。為什么?因為代碼蘊含了邏輯,比純像素更「懂」推理。
生成輸出邏輯(OutputLogic):有了輸入代碼,再讓LLM寫出將輸入變換為輸出的Python代碼(即解題規(guī)則)。
最終,他們構(gòu)建了一個包含320萬個增強(qiáng)樣本的超級數(shù)據(jù)集!
模型選擇:小模型,大智慧
有了海量數(shù)據(jù),用什么模型來學(xué)呢?
NVARC并沒有使用乃至微調(diào)那種幾千億參數(shù)的巨型模型,而是選擇了Qwen3(4B參數(shù))。
![]()
為什么選小模型?
1.速度快:ARC競賽有嚴(yán)格的時間限制,小模型推理飛快。
2.效果好:在特定領(lǐng)域(Coding/Reasoning)的海量高質(zhì)量合成數(shù)據(jù)喂養(yǎng)下,4B模型的表現(xiàn)完全可以吊打未經(jīng)微調(diào)的巨型模型。
他們使用NeMoRL框架和Megatron后端進(jìn)行了高效的全量微調(diào)(SFT),讓模型學(xué)會了「看圖寫代碼」的能力。
推理時的魔法:TTT與DFS
模型訓(xùn)練好了,在考場上(推理階段)怎么發(fā)揮最大威力?
NVARC用了兩個大招:
測試時訓(xùn)練(Test-Time Training,TTT)
對于測試集中的每一個新謎題,他們不會直接預(yù)測答案,而是先利用該謎題給出的幾個示例,快速用LoRA技術(shù)微調(diào)一下模型。
讓模型在做題前,先「適應(yīng)」一下這個題目的獨特風(fēng)格。
![]()
深度優(yōu)先搜索(DFS)
模型生成的不僅僅是答案,而是生成答案的Python代碼。這意味著,他們可以運行這些代碼來驗證結(jié)果是否符合示例。
通過Batch DFS算法,他們批量生成多種可能的代碼路徑,一旦某段代碼完美解決了所有示例,大概率也能解決測試題。
![]()
在比賽的最后10天,NVARC團(tuán)隊還嘗試引入了ARC社區(qū)非常火的TRM(微型遞歸模型)。
雖然由于時間倉促,TRM并沒有成為得分的主力(主要還是靠Qwen3+合成數(shù)據(jù)),但這種將「遞歸推理」與「大模型直覺」結(jié)合的思路,非常有啟發(fā)性。
在最終的集成方案中,TRM也為分?jǐn)?shù)的提升貢獻(xiàn)了微薄但寶貴的力量。
NVARC的勝利再次證明了Scaling Law在推理任務(wù)上的有效性,但這次Scaling的對象不是模型參數(shù)量,而是高質(zhì)量的合成推理數(shù)據(jù)。
數(shù)據(jù):用LLM生成代碼,用代碼生成數(shù)據(jù)。
模型:專精的小模型+針對性微調(diào)。
策略:推理時不要只做一次預(yù)測,要利用測試樣本進(jìn)行TTT。
通往AGI的路上,也許不需要更復(fù)雜的架構(gòu),只需要更聰明的「造題」方法。
為此,團(tuán)隊除了合成數(shù)據(jù),還用了一些真實的謎題數(shù)據(jù)集。
最終數(shù)據(jù)集包含了320萬個增強(qiáng)樣本,每個樣本包含多達(dá)7對輸入/輸出。
![]()
在后訓(xùn)練(post-training)階段,團(tuán)隊基于NeMoRL框架,并用Megatron后端進(jìn)行了監(jiān)督微調(diào)(SFT),這樣能高效利用多節(jié)點H100GPU的顯存和計算資源。
期間,為了全量微調(diào)4B模型,團(tuán)隊用了4個8xH100節(jié)點跑了27個小時。
在測試時,團(tuán)隊對每個謎題獨立進(jìn)行了LoRA微調(diào)(test-timefine-tuning),參數(shù)設(shè)為r=256和alpha=32。
期間,既要去掉梯度檢查點,也要去掉4-bit量化,并且微調(diào)要用bfloat16精度去跑。
除了這些,團(tuán)隊還配合Unsloth框架使用了FlashAttention2。
![]()
開源項目:https://github.com/1ytic/NVARC
技術(shù)報告:https://github.com/1ytic/NVARC/blob/main/nvarc_2025.pdf
團(tuán)隊在ARChitects方法中做的主要優(yōu)化,是在解碼階段實現(xiàn)了深度優(yōu)先搜索(DFS)算法的批處理(batch)。
并且,還使用了額外的增強(qiáng)(augmentations)來對DFS階段的候選結(jié)果進(jìn)行重打分。
團(tuán)隊在這里做了一點小改動。
也就是,對每個候選解只用了8次增強(qiáng),但確保對每個候選解使用完全相同的增強(qiáng)。
如此一來,不同解法的分?jǐn)?shù)更有可比性。
比賽期間,團(tuán)隊在不同比例的合成數(shù)據(jù)上微調(diào)了模型。
從下圖中可以看到,在預(yù)訓(xùn)練階段增加更多數(shù)據(jù)對損失函數(shù)的影響。
最好的模型在比賽期間拿到了27.64%的分?jǐn)?shù)。
![]()
20年最大更新
CUDA 13.1徹底重構(gòu)
CUDA Tile編程
為了幫助開發(fā)者為當(dāng)前和未來的GPU構(gòu)建軟件,CUDA 13.1重磅推出了CUDA Tile。
基于此,開發(fā)者可以直接在SIMT之上的一層編寫GPU Kernel(核函數(shù))。
在SIMT編程中,開發(fā)者需要通過劃分?jǐn)?shù)據(jù)和定義每個線程的執(zhí)行路徑來指定Kernel。而通過CUDA Tile,則可以將代碼提升一個層級,指定為Tile數(shù)據(jù)塊。
開發(fā)者只需指定要在這些Tile上執(zhí)行的數(shù)學(xué)運算,編譯器和運行時會自動確定將工作分發(fā)到各個線程的最佳方式。
不僅如此,由于Tile模型屏蔽了使用Tensor Core等專用硬件的細(xì)節(jié),因此開發(fā)者現(xiàn)在寫的Tile代碼將直接兼容未來的GPU架構(gòu)。
除此之外,CUDA13.1還發(fā)布了兩個用于Tile編程的組件:
CUDATileIR:一種用于對英偉達(dá)GPU進(jìn)行編程的新虛擬指令集架構(gòu)(ISA)。
cuTile Python:一種新的領(lǐng)域特定語言(DSL),用于在Python中編寫基于數(shù)組和Tile的Kernel。
CUDA軟件更新
Green Context現(xiàn)已向運行時API開放
CUDA中的Green Context(綠色上下文)是傳統(tǒng)CUDA Context的輕量級替代方案,目的是在為開發(fā)者提供一種在GPU上進(jìn)行更細(xì)粒度空間分區(qū)和資源預(yù)置的機(jī)制。
Green Context使開發(fā)者能夠定義和管理GPU資源(主要是流多處理器,即SM)的獨特分區(qū),并將一組特定的SM專用給某個特定的Context。
然后,開發(fā)者可以啟動CUDA Kernel,并管理僅在這個Green Context預(yù)置的資源內(nèi)運行的流(Stream)。
CUDA13.1還引入了一個更可定制的split() API。
開發(fā)者可以構(gòu)建以前需要多次API調(diào)用才能實現(xiàn)的SM分區(qū),并且能夠配置工作隊列以最大限度地減少提交到不同Green Context的工作之間的虛假依賴。
CUDA多進(jìn)程服務(wù)(MPS)更新
CUDA13.1為多進(jìn)程服務(wù)(MPS)帶來了新特性和功能,其中的一些亮點包括:
內(nèi)存局部性優(yōu)化分區(qū)
內(nèi)存局部性優(yōu)化分區(qū)(MLOPart)是部分Blackwell(計算能力10.0和10.3)及更新GPU上的一項功能。開發(fā)者可以創(chuàng)建專門用于提高內(nèi)存局部性的專用CUDA設(shè)備。
在受支持的GPU上使用MLOPart時,每個分區(qū)都顯示為一個獨立的CUDA設(shè)備,具有關(guān)聯(lián)的計算和內(nèi)存資源。
靜態(tài)流多處理器分區(qū)
作為MPS中當(dāng)前動態(tài)執(zhí)行資源預(yù)置的替代方案,靜態(tài)流多處理器(SM)分區(qū)是Ampere架構(gòu)(計算能力8.0)及更新GPU的一項功能,它提供了一種為MPS客戶端創(chuàng)建獨占SM分區(qū)的方法。
這個模式的主要目的是提供確定性的資源分配并改善MPS客戶端之間的隔離,可以通過使用-S或--static-partitioning標(biāo)志啟動MPS控制守護(hù)進(jìn)程來啟用。
開發(fā)者工具
CUDA Tile Kernel分析
NVIDIA Nsight Compute 2025.4增加了對分析CUDA Tile Kernel的支持。
更新包括:
摘要頁面上新的「Result Type(結(jié)果類型)」列,用于區(qū)分Tile與SIMT Kernel。
詳情頁面上新的「Tile Statistics(Tile統(tǒng)計)」部分總結(jié)了Tile維度和重要管道的利用率。
源頁面還支持將指標(biāo)映射到高級cuTile Kernel源碼。
此外,還增加了對分析設(shè)備啟動的Graph中的CUDA Graph節(jié)點的支持,以及源頁面導(dǎo)航的改進(jìn),為編譯器生成和用戶生成的標(biāo)簽提供了可點擊的鏈接。
![]()
Nsight Compute分析概況,突出顯示了分析輸出的Tile Statistics部分
編譯時修補(bǔ)
NVIDIA Compute Sanitizer 2025.4通過-fdevice-sanitize=memcheck編譯器標(biāo)志增加了對CUDA編譯器(NVCC)編譯時修補(bǔ)的支持。這種修補(bǔ)增強(qiáng)了內(nèi)存錯誤檢測并提高了Compute Sanitizer的性能。
編譯時插樁將錯誤檢測直接集成到NVCC中,以實現(xiàn)更快的運行速度,同時通過高級的基址和邊界分析捕獲更隱蔽的內(nèi)存問題,例如相鄰分配之間的非法訪問。
這意味著用戶可以在不犧牲速度的情況下調(diào)試內(nèi)存問題,運行更多測試并保持生產(chǎn)力。
要使用此新功能,請使用如下NVCC標(biāo)志編譯代碼:
nvcc -fdevice-sanitize=memcheck -o myapp myapp.cu
然后使用memcheck工具通過compute-sanitizer運行你的應(yīng)用程序:
compute-sanitizer --tool memcheck myapp
NVIDIA Nsight Systems
NVIDIA Nsight Systems 2025.6.1與CUDA Toolkit 13.1同步發(fā)布,其中包括了多個全新的追蹤功能:
系統(tǒng)級CUDA追蹤:--cuda-trace-scope啟用跨進(jìn)程樹或整個系統(tǒng)的追蹤。
CUDA主機(jī)函數(shù)追蹤:增加了對CUDA Graph主機(jī)函數(shù)節(jié)點和cudaLaunchHostFunc()的追蹤支持,后者在主機(jī)上執(zhí)行并阻塞Stream。
CUDA硬件追蹤:在支持的情況下,基于硬件的追蹤現(xiàn)在是默認(rèn)設(shè)置;使用--trace=cuda-sw可恢復(fù)到軟件模式。
Green Context時間軸行現(xiàn)在在工具提示中顯示SM分配,幫助開發(fā)者了解GPU資源利用率。
數(shù)學(xué)庫
核心CUDA Toolkit數(shù)學(xué)庫的新功能包括:
NVIDIA cuBLAS
一個新的帶有Grouped GEMM的實驗性API,支持Blackwell GPU上的FP8和BF16/FP16。
針對上述數(shù)據(jù)類型的Grouped GEMM,提供了一種無需主機(jī)同步的實現(xiàn),在MoE用例中比多流GEMM實現(xiàn)速度提升高達(dá)4倍。
NVIDIA cuSPARSE
一個新的稀疏矩陣向量乘法(SpMVOp)API,與CsrMV API相比性能有所提高。
此API支持CSR格式、32位索引、雙精度和用戶定義的epilogue(后處理)。
NVIDIA cuFFT
一組cuFFT device API,提供用于在C++頭文件中查詢或生成設(shè)備函數(shù)代碼和數(shù)據(jù)庫元數(shù)據(jù)的主機(jī)函數(shù)。
它專為cuFFTDx庫設(shè)計,通過查詢cuFFT來促進(jìn)cuFFTDx代碼塊的生成,這些代碼塊可以與cuFFTDx應(yīng)用程序鏈接來提高性能。
cuBLAS Blackwell性能
CUDA Toolkit 12.9在Blackwell上引入了塊縮放(block-scaled)的FP4和FP8 matmul。
CUDA13.1增加了對這些數(shù)據(jù)類型和BF16的性能支持。
![]()
在不同數(shù)值精度下,Blackwell GPU相對于H200的加速比
cuSOLVER Blackwell性能
CUDA13.1繼續(xù)改進(jìn)用于特征值分解的批處理SYEVD和GEEV API,提供了性能增強(qiáng)。
批處理SYEV(cusolverDnXsyevBatched)是cuSOLVER SYEV例程的統(tǒng)一批處理版本,用于計算對稱/厄米矩陣的特征值和特征向量,非常適合并行求解許多小矩陣。
在批量大小為5000(24-256行)的測試中,與L40S相比,RTX Pro 6000實現(xiàn)了約2倍的加速.
![]()
cusolverDnXgeev(GEEV)是一種混合CPU/GPU算法,用于計算一般(非對稱)稠密矩陣的特征值和特征向量。
在矩陣大小從1024到32768的測試中,RTX PRO 6000相對于L40S實現(xiàn)了最大超1.5倍的性能。
![]()
NVIDIA CUDA Core Compute Libraries(CCCL)
確定性浮點歸約
由于浮點加法的非結(jié)合性,cub::DeviceReduce歷史上僅保證在同一GPU上的運行之間結(jié)果是按位相同的。這是作為一個兩遍算法(two-passalgorithm)實現(xiàn)的。
作為CUDA 13.1的一部分,NVIDIA CCCL 3.1提供了兩個額外的浮點確定性選項,以便在確定性和性能之間進(jìn)行權(quán)衡。
不保證(Not-guaranteed):使用原子操作的單遍歸約。這不保證提供按位相同的結(jié)果。
GPU-to-GPU:基于Kate Clark在GTC 2024演講中的可重現(xiàn)歸約。結(jié)果總是按位相同的。
可以通過標(biāo)志設(shè)置確定性選項,如下面的代碼所示。
cub::DeviceReduce::Sum(..., env);
![]()
CUB::DeviceReduce的三種不同浮點確定性選擇的歸一化執(zhí)行時間
更方便的單階段CUB API
幾乎每個CUB算法都需要臨時存儲用于中間暫存空間。
之前,開發(fā)者必須通過兩階段調(diào)用模式來查詢和分配必要的臨時存儲,這種模式很繁瑣,并且如果兩次調(diào)用之間傳遞的參數(shù)不同,則容易出錯。
CCCL 3.1為一些CUB算法添加了新的重載,這些算法接受一個memory resource(內(nèi)存資源),因此開發(fā)者可以跳過臨時存儲的查詢/分配/釋放模式。
之前(兩階段)
cudaFreeAsync(temp_storage, stream);
之后(單階段)
cub::DeviceScan::ExclusiveSum(d_input,..., mr);
參考資料:
https://developer.nvidia.com/blog/nvidia-cuda-13-1-powers-next-gen-gpu-programming-with-nvidia-cuda-tile-and-performance-gains
https://developer.nvidia.com/blog/nvidia-kaggle-grandmasters-win-artificial-general-intelligence-competition/
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標(biāo),鎖定新智元極速推送!





京公網(wǎng)安備 11011402013531號