當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

英偉達(dá)周末雙炸！CUDA二十年最大更新，順手屠榜AGI比賽

IP屬地中國·北京 新智元 時間：2025-12-06 22:10:44

新智元報道
編輯：定慧好困
壟斷全球的CUDA，迎來重大更新。
就在這個周末，英偉達(dá)干了兩件大事。
不僅在硬件底層生態(tài)上扔下了一枚深水炸彈，還在軟實力上秀了一把肌肉。
兩件大事：
1.軟件生態(tài)的「地基」重塑：NVIDIA CUDA 13.1正式推出。這是CUDA平臺誕生二十年來最大、最全面的一次更新。它引入了CUDA Tile編程模型，旨在屏蔽底層硬件細(xì)節(jié)，讓開發(fā)者能更輕松地駕馭下一代GPU（如Blackwell）的恐怖性能。
2.贏下AGI比賽：Kaggle ARC Prize 2025競賽中，特級大師團(tuán)隊KGMoN以27.64%的分?jǐn)?shù)奪得冠軍。令人震驚的是，他們使用的并非千億參數(shù)的巨型模型，而是一個僅4B的小模型變體，單次任務(wù)推理成本僅需20美分。
這周五，來自英偉達(dá)的Ivan Sorokin和Jean-Francois Puget，在Kaggle ARC Prize 2025的公開榜單上，以27.64%的分?jǐn)?shù)奪得冠軍。
這場比賽被業(yè)內(nèi)許多人視為衡量人類向通用AGI進(jìn)度的「實時晴雨表」。

值得一提的是，他們的方案是在ARC-AGI-2基準(zhǔn)測試背后的同一數(shù)據(jù)集上進(jìn)行評估的。
NVARC一下子超過Claude Opus 4.5，并且成本很低（注意橫軸每個任務(wù)消耗為對數(shù)坐標(biāo)軸）！

與此同時，英偉達(dá)還推出了自CUDA平臺誕生二十年以來最大、最全面的更新——NVIDIA CUDA 13.1。
NVIDIA CUDA Tile：基于Tile的編程模型，用于屏蔽包括Tensor Core在內(nèi)的專用硬件底層細(xì)節(jié)。
Green Context：正式向運行時API開放。
NVIDIA cuBLAS：支持雙精度和單精度模擬。
CUDA編程指南：完全重寫，專為CUDA新手和資深程序員設(shè)計。

拿下AGI「圣杯」
4B小模型碾壓全場
如今，ARC-AGI已經(jīng)成為了觀察AI通用推理真正進(jìn)展的，最受關(guān)注的指標(biāo)之一。
跟典型的機(jī)器學(xué)習(xí)基準(zhǔn)不同，ARC-AGI的任務(wù)沒法靠堆規(guī)模、死記硬背或者抓取模式來搞定。
它是AI界公認(rèn)的「智商測試」，由Keras之父Fran?ois Chollet提出，專門測試AI面對陌生問題的舉一反三能力，而不僅僅是死記硬背。

核心秘訣：320萬合成數(shù)據(jù)的「暴力美學(xué)」
NVARC方案最震撼的地方，在于他們構(gòu)建了一個極其復(fù)雜的合成數(shù)據(jù)生成流水線。
他們沒有依賴原本稀缺的幾百個訓(xùn)練題，而是自己造了320萬個！
他們的邏輯很簡單：如果AI沒見過類似的推理題，那就生成無窮無盡的類似題目讓它看個夠。
思路：合成數(shù)據(jù)、測試時訓(xùn)練（Test-timetraining）以及嚴(yán)謹(jǐn)?shù)墓こ袒?/strong>。

數(shù)據(jù)生成的「四步走」戰(zhàn)略
他們使用了一個120B參數(shù)的開源大模型（gpt-oss-120b），通過NeMo-Skills框架搭建了如下流水線：

收集描述（Descriptions）：收集ARC題目的人類自然語言描述（比如「把紅色方塊向右移動直到碰到墻壁」）。
混合重組（MixSummaries）：讓LLM將兩個不同謎題的描述「雜交」，生成一個新的、更復(fù)雜的謎題描述。這一步生成了26萬+的新創(chuàng)意。
生成輸入邏輯（InputLogic）：這是最關(guān)鍵的一步！他們不直接生成像素圖，而是讓LLM寫Python代碼來生成輸入網(wǎng)格。為什么？因為代碼蘊含了邏輯，比純像素更「懂」推理。
生成輸出邏輯（OutputLogic）：有了輸入代碼，再讓LLM寫出將輸入變換為輸出的Python代碼（即解題規(guī)則）。
最終，他們構(gòu)建了一個包含320萬個增強(qiáng)樣本的超級數(shù)據(jù)集！
模型選擇：小模型，大智慧
有了海量數(shù)據(jù)，用什么模型來學(xué)呢？
NVARC并沒有使用乃至微調(diào)那種幾千億參數(shù)的巨型模型，而是選擇了Qwen3（4B參數(shù)）。

為什么選小模型？
1.速度快：ARC競賽有嚴(yán)格的時間限制，小模型推理飛快。
2.效果好：在特定領(lǐng)域（Coding/Reasoning）的海量高質(zhì)量合成數(shù)據(jù)喂養(yǎng)下，4B模型的表現(xiàn)完全可以吊打未經(jīng)微調(diào)的巨型模型。
他們使用NeMoRL框架和Megatron后端進(jìn)行了高效的全量微調(diào)（SFT），讓模型學(xué)會了「看圖寫代碼」的能力。
推理時的魔法：TTT與DFS
模型訓(xùn)練好了，在考場上（推理階段）怎么發(fā)揮最大威力？
NVARC用了兩個大招：
測試時訓(xùn)練（Test-Time Training，TTT）
對于測試集中的每一個新謎題，他們不會直接預(yù)測答案，而是先利用該謎題給出的幾個示例，快速用LoRA技術(shù)微調(diào)一下模型。
讓模型在做題前，先「適應(yīng)」一下這個題目的獨特風(fēng)格。

深度優(yōu)先搜索（DFS）
模型生成的不僅僅是答案，而是生成答案的Python代碼。這意味著，他們可以運行這些代碼來驗證結(jié)果是否符合示例。
通過Batch DFS算法，他們批量生成多種可能的代碼路徑，一旦某段代碼完美解決了所有示例，大概率也能解決測試題。

在比賽的最后10天，NVARC團(tuán)隊還嘗試引入了ARC社區(qū)非常火的TRM（微型遞歸模型）。
雖然由于時間倉促，TRM并沒有成為得分的主力（主要還是靠Qwen3+合成數(shù)據(jù)），但這種將「遞歸推理」與「大模型直覺」結(jié)合的思路，非常有啟發(fā)性。
在最終的集成方案中，TRM也為分?jǐn)?shù)的提升貢獻(xiàn)了微薄但寶貴的力量。
NVARC的勝利再次證明了Scaling Law在推理任務(wù)上的有效性，但這次Scaling的對象不是模型參數(shù)量，而是高質(zhì)量的合成推理數(shù)據(jù)。
數(shù)據(jù)：用LLM生成代碼，用代碼生成數(shù)據(jù)。
模型：專精的小模型+針對性微調(diào)。
策略：推理時不要只做一次預(yù)測，要利用測試樣本進(jìn)行TTT。
通往AGI的路上，也許不需要更復(fù)雜的架構(gòu)，只需要更聰明的「造題」方法。
為此，團(tuán)隊除了合成數(shù)據(jù)，還用了一些真實的謎題數(shù)據(jù)集。
最終數(shù)據(jù)集包含了320萬個增強(qiáng)樣本，每個樣本包含多達(dá)7對輸入/輸出。

在后訓(xùn)練（post-training）階段，團(tuán)隊基于NeMoRL框架，并用Megatron后端進(jìn)行了監(jiān)督微調(diào)（SFT），這樣能高效利用多節(jié)點H100GPU的顯存和計算資源。
期間，為了全量微調(diào)4B模型，團(tuán)隊用了4個8xH100節(jié)點跑了27個小時。
在測試時，團(tuán)隊對每個謎題獨立進(jìn)行了LoRA微調(diào)（test-timefine-tuning），參數(shù)設(shè)為r=256和alpha=32。
期間，既要去掉梯度檢查點，也要去掉4-bit量化，并且微調(diào)要用bfloat16精度去跑。
除了這些，團(tuán)隊還配合Unsloth框架使用了FlashAttention2。

開源項目：https://github.com/1ytic/NVARC
技術(shù)報告：https://github.com/1ytic/NVARC/blob/main/nvarc_2025.pdf
團(tuán)隊在ARChitects方法中做的主要優(yōu)化，是在解碼階段實現(xiàn)了深度優(yōu)先搜索（DFS）算法的批處理（batch）。
并且，還使用了額外的增強(qiáng)（augmentations）來對DFS階段的候選結(jié)果進(jìn)行重打分。
團(tuán)隊在這里做了一點小改動。
也就是，對每個候選解只用了8次增強(qiáng)，但確保對每個候選解使用完全相同的增強(qiáng)。
如此一來，不同解法的分?jǐn)?shù)更有可比性。
比賽期間，團(tuán)隊在不同比例的合成數(shù)據(jù)上微調(diào)了模型。
從下圖中可以看到，在預(yù)訓(xùn)練階段增加更多數(shù)據(jù)對損失函數(shù)的影響。
最好的模型在比賽期間拿到了27.64%的分?jǐn)?shù)。

20年最大更新
CUDA 13.1徹底重構(gòu)
CUDA Tile編程
為了幫助開發(fā)者為當(dāng)前和未來的GPU構(gòu)建軟件，CUDA 13.1重磅推出了CUDA Tile。
基于此，開發(fā)者可以直接在SIMT之上的一層編寫GPU Kernel（核函數(shù)）。
在SIMT編程中，開發(fā)者需要通過劃分?jǐn)?shù)據(jù)和定義每個線程的執(zhí)行路徑來指定Kernel。而通過CUDA Tile，則可以將代碼提升一個層級，指定為Tile數(shù)據(jù)塊。
開發(fā)者只需指定要在這些Tile上執(zhí)行的數(shù)學(xué)運算，編譯器和運行時會自動確定將工作分發(fā)到各個線程的最佳方式。
不僅如此，由于Tile模型屏蔽了使用Tensor Core等專用硬件的細(xì)節(jié)，因此開發(fā)者現(xiàn)在寫的Tile代碼將直接兼容未來的GPU架構(gòu)。
除此之外，CUDA13.1還發(fā)布了兩個用于Tile編程的組件：
CUDATileIR：一種用于對英偉達(dá)GPU進(jìn)行編程的新虛擬指令集架構(gòu)（ISA）。
cuTile Python：一種新的領(lǐng)域特定語言（DSL），用于在Python中編寫基于數(shù)組和Tile的Kernel。

CUDA軟件更新

Green Context現(xiàn)已向運行時API開放
CUDA中的Green Context（綠色上下文）是傳統(tǒng)CUDA Context的輕量級替代方案，目的是在為開發(fā)者提供一種在GPU上進(jìn)行更細(xì)粒度空間分區(qū)和資源預(yù)置的機(jī)制。
Green Context使開發(fā)者能夠定義和管理GPU資源（主要是流多處理器，即SM）的獨特分區(qū)，并將一組特定的SM專用給某個特定的Context。
然后，開發(fā)者可以啟動CUDA Kernel，并管理僅在這個Green Context預(yù)置的資源內(nèi)運行的流（Stream）。
CUDA13.1還引入了一個更可定制的split() API。
開發(fā)者可以構(gòu)建以前需要多次API調(diào)用才能實現(xiàn)的SM分區(qū)，并且能夠配置工作隊列以最大限度地減少提交到不同Green Context的工作之間的虛假依賴。
CUDA多進(jìn)程服務(wù)（MPS）更新
CUDA13.1為多進(jìn)程服務(wù)（MPS）帶來了新特性和功能，其中的一些亮點包括：
內(nèi)存局部性優(yōu)化分區(qū)
內(nèi)存局部性優(yōu)化分區(qū)（MLOPart）是部分Blackwell（計算能力10.0和10.3）及更新GPU上的一項功能。開發(fā)者可以創(chuàng)建專門用于提高內(nèi)存局部性的專用CUDA設(shè)備。
在受支持的GPU上使用MLOPart時，每個分區(qū)都顯示為一個獨立的CUDA設(shè)備，具有關(guān)聯(lián)的計算和內(nèi)存資源。
靜態(tài)流多處理器分區(qū)
作為MPS中當(dāng)前動態(tài)執(zhí)行資源預(yù)置的替代方案，靜態(tài)流多處理器（SM）分區(qū)是Ampere架構(gòu)（計算能力8.0）及更新GPU的一項功能，它提供了一種為MPS客戶端創(chuàng)建獨占SM分區(qū)的方法。
這個模式的主要目的是提供確定性的資源分配并改善MPS客戶端之間的隔離，可以通過使用-S或--static-partitioning標(biāo)志啟動MPS控制守護(hù)進(jìn)程來啟用。
開發(fā)者工具

CUDA Tile Kernel分析
NVIDIA Nsight Compute 2025.4增加了對分析CUDA Tile Kernel的支持。
更新包括：
摘要頁面上新的「Result Type（結(jié)果類型）」列，用于區(qū)分Tile與SIMT Kernel。
詳情頁面上新的「Tile Statistics（Tile統(tǒng)計）」部分總結(jié)了Tile維度和重要管道的利用率。
源頁面還支持將指標(biāo)映射到高級cuTile Kernel源碼。
此外，還增加了對分析設(shè)備啟動的Graph中的CUDA Graph節(jié)點的支持，以及源頁面導(dǎo)航的改進(jìn)，為編譯器生成和用戶生成的標(biāo)簽提供了可點擊的鏈接。

Nsight Compute分析概況，突出顯示了分析輸出的Tile Statistics部分
編譯時修補(bǔ)
NVIDIA Compute Sanitizer 2025.4通過-fdevice-sanitize=memcheck編譯器標(biāo)志增加了對CUDA編譯器（NVCC）編譯時修補(bǔ)的支持。這種修補(bǔ)增強(qiáng)了內(nèi)存錯誤檢測并提高了Compute Sanitizer的性能。
編譯時插樁將錯誤檢測直接集成到NVCC中，以實現(xiàn)更快的運行速度，同時通過高級的基址和邊界分析捕獲更隱蔽的內(nèi)存問題，例如相鄰分配之間的非法訪問。
這意味著用戶可以在不犧牲速度的情況下調(diào)試內(nèi)存問題，運行更多測試并保持生產(chǎn)力。
要使用此新功能，請使用如下NVCC標(biāo)志編譯代碼：
nvcc -fdevice-sanitize=memcheck -o myapp myapp.cu
然后使用memcheck工具通過compute-sanitizer運行你的應(yīng)用程序：
compute-sanitizer --tool memcheck myapp
NVIDIA Nsight Systems
NVIDIA Nsight Systems 2025.6.1與CUDA Toolkit 13.1同步發(fā)布，其中包括了多個全新的追蹤功能：
系統(tǒng)級CUDA追蹤：--cuda-trace-scope啟用跨進(jìn)程樹或整個系統(tǒng)的追蹤。
CUDA主機(jī)函數(shù)追蹤：增加了對CUDA Graph主機(jī)函數(shù)節(jié)點和cudaLaunchHostFunc()的追蹤支持，后者在主機(jī)上執(zhí)行并阻塞Stream。
CUDA硬件追蹤：在支持的情況下，基于硬件的追蹤現(xiàn)在是默認(rèn)設(shè)置；使用--trace=cuda-sw可恢復(fù)到軟件模式。
Green Context時間軸行現(xiàn)在在工具提示中顯示SM分配，幫助開發(fā)者了解GPU資源利用率。

數(shù)學(xué)庫
核心CUDA Toolkit數(shù)學(xué)庫的新功能包括：
NVIDIA cuBLAS
一個新的帶有Grouped GEMM的實驗性API，支持Blackwell GPU上的FP8和BF16/FP16。
針對上述數(shù)據(jù)類型的Grouped GEMM，提供了一種無需主機(jī)同步的實現(xiàn)，在MoE用例中比多流GEMM實現(xiàn)速度提升高達(dá)4倍。
NVIDIA cuSPARSE
一個新的稀疏矩陣向量乘法（SpMVOp）API，與CsrMV API相比性能有所提高。
此API支持CSR格式、32位索引、雙精度和用戶定義的epilogue（后處理）。
NVIDIA cuFFT
一組cuFFT device API，提供用于在C++頭文件中查詢或生成設(shè)備函數(shù)代碼和數(shù)據(jù)庫元數(shù)據(jù)的主機(jī)函數(shù)。
它專為cuFFTDx庫設(shè)計，通過查詢cuFFT來促進(jìn)cuFFTDx代碼塊的生成，這些代碼塊可以與cuFFTDx應(yīng)用程序鏈接來提高性能。
cuBLAS Blackwell性能
CUDA Toolkit 12.9在Blackwell上引入了塊縮放（block-scaled）的FP4和FP8 matmul。
CUDA13.1增加了對這些數(shù)據(jù)類型和BF16的性能支持。

在不同數(shù)值精度下，Blackwell GPU相對于H200的加速比
cuSOLVER Blackwell性能
CUDA13.1繼續(xù)改進(jìn)用于特征值分解的批處理SYEVD和GEEV API，提供了性能增強(qiáng)。
批處理SYEV（cusolverDnXsyevBatched）是cuSOLVER SYEV例程的統(tǒng)一批處理版本，用于計算對稱/厄米矩陣的特征值和特征向量，非常適合并行求解許多小矩陣。
在批量大小為5000（24-256行）的測試中，與L40S相比，RTX Pro 6000實現(xiàn)了約2倍的加速.

cusolverDnXgeev（GEEV）是一種混合CPU/GPU算法，用于計算一般（非對稱）稠密矩陣的特征值和特征向量。
在矩陣大小從1024到32768的測試中，RTX PRO 6000相對于L40S實現(xiàn)了最大超1.5倍的性能。

NVIDIA CUDA Core Compute Libraries（CCCL）

確定性浮點歸約
由于浮點加法的非結(jié)合性，cub::DeviceReduce歷史上僅保證在同一GPU上的運行之間結(jié)果是按位相同的。這是作為一個兩遍算法（two-passalgorithm）實現(xiàn)的。
作為CUDA 13.1的一部分，NVIDIA CCCL 3.1提供了兩個額外的浮點確定性選項，以便在確定性和性能之間進(jìn)行權(quán)衡。
不保證（Not-guaranteed）：使用原子操作的單遍歸約。這不保證提供按位相同的結(jié)果。
GPU-to-GPU：基于Kate Clark在GTC 2024演講中的可重現(xiàn)歸約。結(jié)果總是按位相同的。
可以通過標(biāo)志設(shè)置確定性選項，如下面的代碼所示。
cub::DeviceReduce::Sum(..., env);

CUB::DeviceReduce的三種不同浮點確定性選擇的歸一化執(zhí)行時間
更方便的單階段CUB API
幾乎每個CUB算法都需要臨時存儲用于中間暫存空間。
之前，開發(fā)者必須通過兩階段調(diào)用模式來查詢和分配必要的臨時存儲，這種模式很繁瑣，并且如果兩次調(diào)用之間傳遞的參數(shù)不同，則容易出錯。
CCCL 3.1為一些CUB算法添加了新的重載，這些算法接受一個memory resource（內(nèi)存資源），因此開發(fā)者可以跳過臨時存儲的查詢/分配/釋放模式。
之前（兩階段）
cudaFreeAsync(temp_storage, stream);

之后（單階段）
cub::DeviceScan::ExclusiveSum(d_input,..., mr);
參考資料：
https://developer.nvidia.com/blog/nvidia-cuda-13-1-powers-next-gen-gpu-programming-with-nvidia-cuda-tile-and-performance-gains
https://developer.nvidia.com/blog/nvidia-kaggle-grandmasters-win-artificial-general-intelligence-competition/
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標(biāo)，鎖定新智元極速推送！

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉(zhuǎn)型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

云宇星空大模型正式發(fā)布，上海市規(guī)劃資源局與商湯大裝置聯(lián)合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

緊急“剎車”：寶馬5系旅行車中期改款被曝回歸傳統(tǒng)雙腎格柵

從深圳出發(fā)，向全球進(jìn)發(fā)：元化智能一年12證書寫手術(shù)機(jī)器人“中國速度”

全站最新

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉(zhuǎn)型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

云宇星空大模型正式發(fā)布，上海市規(guī)劃資源局與商湯大裝置聯(lián)合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

熱門推薦

喜茶“瘦身”：不拼門店數(shù)，改拼什么？

不做線上，不做廣告，這家超市如何成為美國“坪效之王”？

波司登代工大學(xué)羽絨服，找回漲價的體面

安克創(chuàng)新的AB面：創(chuàng)始人分紅過億，存貨卻壓垮現(xiàn)金流

雷軍、何小鵬、張一鳴和賈躍亭都來跨界AI機(jī)器人，宇樹科技能否守得住護(hù)城河？

微軟聯(lián)手 Kimi 打造 Office 自動化 Agent，AI 云巨頭開啟本土化“自我修正”

YouTube 封禁兩家發(fā)布虛假電影預(yù)告的 AI 頻道

亞馬遜組建全新AI組織，AWS元老Peter DeSantis掛帥，全面整合大模型、芯片與量子計算

LeCun再創(chuàng)業(yè)！新公司估值247億，CEO卻不是他！

被無數(shù)人看衰的Manus，8個月狂飆1億美元ARR！創(chuàng)全球最快紀(jì)錄，AI代理時代徹底引爆

國內(nèi)首個國標(biāo) VLA 大模型開源!北京人形 XR-1讓機(jī)器人真正“會干活”

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉(zhuǎn)型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

華曙高科：中科院等離子所引入大尺寸銅合金打印設(shè)備為國家聚變能源裝備研發(fā)提供技術(shù)支撐

云宇星空大模型正式發(fā)布，上海市規(guī)劃資源局與商湯大裝置聯(lián)合打造