9月19日,2024云棲大會(huì)中杭州如約召開(kāi),作為阿里云的年度重磅活動(dòng)之一,云棲大會(huì)以引領(lǐng)計(jì)算技術(shù)創(chuàng)新為核心,致力于推動(dòng)云計(jì)算、大數(shù)據(jù)、人工智能等前沿技術(shù)的發(fā)展與應(yīng)用。
作為關(guān)注AI硬科技的頭部新媒體,也應(yīng)邀出席云棲大會(huì),大會(huì)的開(kāi)幕演講由阿里集團(tuán) CEO、阿里智能云董事長(zhǎng)兼 CEO 吳泳銘主持,而在整個(gè)主旨演講中,最令人印象深刻的莫過(guò)于這段話:
生成式AI 改變計(jì)算架構(gòu),從 CPU 主導(dǎo)的計(jì)算體系到 GPU 主導(dǎo)的 AI 計(jì)算遷移。AI 時(shí)代將是“GPU算力為主,CPU算力為輔”的計(jì)算模式。2024年市場(chǎng)新增算力,超過(guò)50%的需求AI驅(qū)動(dòng)產(chǎn)生,這一趨勢(shì)將持續(xù)擴(kuò)大。阿里云投資建設(shè)了大量的 AI計(jì)算基礎(chǔ)設(shè)施,依然遠(yuǎn)遠(yuǎn)無(wú)法滿足客戶需求。
沒(méi)錯(cuò),GPU計(jì)算,就是未來(lái)。
CPU一直都是數(shù)字世界的基石
在過(guò)去幾十年里,從云端服務(wù)器到超級(jí)計(jì)算機(jī),CPU一直都充當(dāng)著計(jì)算體系核心的責(zé)任。比如著名的天河一號(hào),就采用了14336個(gè)商用處理器、7168個(gè)加速處理器和2048個(gè)自主飛騰-1000處理器,這些處理器基本是「CPU」,也就是“邏輯處理器”。

圖源:維基百科
CPU主要被設(shè)計(jì)用于處理通用計(jì)算任務(wù),進(jìn)行復(fù)雜的邏輯運(yùn)算和順序運(yùn)算。你可以將CPU看作是一個(gè)大學(xué)生,他有著足夠的邏輯推算能力來(lái)處理各種復(fù)雜的任務(wù),但是每次只能處理一個(gè)任務(wù),也就是所謂的「單線程」。
雖然在后續(xù)的CPU設(shè)計(jì)中,工程師通過(guò)指令集、CPU架構(gòu)等方式,讓CPU可以同時(shí)處理兩個(gè)工作(雙線程),卻已然是當(dāng)下的極限。而且CPU在處理任務(wù)時(shí),仍然需要先處理完手頭的工作,再進(jìn)入下一個(gè)工作流程,也就是「順序執(zhí)行」。
邏輯運(yùn)算與順序執(zhí)行,構(gòu)成了CPU的通用計(jì)算基礎(chǔ),只要你輸入的程序符合CPU的運(yùn)算邏輯,那么CPU所給出的計(jì)算結(jié)果都是一樣的,并不會(huì)因?yàn)槟闶褂玫氖茿MD,他使用的是英特爾,所以你的1+1=2,他的1+1=3。
得益于強(qiáng)大的通用計(jì)算能力,CPU成為人類構(gòu)建通用型計(jì)算中心時(shí)的首選,因?yàn)橛?jì)算中心的設(shè)計(jì)初衷就是用來(lái)執(zhí)行不同領(lǐng)域的計(jì)算任務(wù)。而服務(wù)器則是承擔(dān)著為云端應(yīng)用提供數(shù)據(jù)交換和計(jì)算等支持,為了使其能夠適應(yīng)不同類型的應(yīng)用運(yùn)算,通用計(jì)算能力就是關(guān)鍵。

圖源:veer
GPU計(jì)算:從圖形渲染到驅(qū)動(dòng)AI
最近兩年,一切都發(fā)生了翻天覆地的改變,GPU成為大多數(shù)新數(shù)據(jù)中心及超級(jí)計(jì)算機(jī)的核心,GPU算力的增長(zhǎng)速度屢屢突破歷史記錄,企業(yè)瘋狂采購(gòu)GPU核心,搭建全新的計(jì)算矩陣,而這一切的「元兇」,就是生成式AI。
作為近年來(lái)最受關(guān)注、熱度最高的前沿領(lǐng)域,生成式AI有一個(gè)特點(diǎn),那就是對(duì)算力的恐怖需求,這個(gè)需求不僅體現(xiàn)在訓(xùn)練、優(yōu)化AI大模型上,更是隨著用戶數(shù)量的增長(zhǎng)飆升。生成式AI可以說(shuō)是人類少有的,從出現(xiàn)到普及耗時(shí)最短的前沿科技,現(xiàn)如今每一個(gè)接入互聯(lián)網(wǎng)的人,都可以通過(guò)訪問(wèn)通義千問(wèn)等網(wǎng)站來(lái)使用生成式AI。

圖源:通義千問(wèn)
龐大的需求催生了數(shù)量眾多的數(shù)據(jù)中心,但是也讓一部分人對(duì)此產(chǎn)生疑惑:為什么要選擇GPU而非CPU來(lái)搭建AI數(shù)據(jù)中心?
GPU最初的設(shè)計(jì)用途是圖形渲染任務(wù),這決定了其需要更強(qiáng)大的并行任務(wù)處理能力。以游戲?yàn)槔?dāng)你在游戲中看到一個(gè)箱子,實(shí)際上你看到的是一個(gè)由大量三角形組成的3D模型,如果你玩過(guò)早期的3D游戲,那么你肯定會(huì)對(duì)游戲中“有棱有角”的角色有著深刻印象。

圖源:推特
實(shí)際上,這個(gè)問(wèn)題就是因?yàn)樵缙诘腉PU算力不足,只能進(jìn)行百位數(shù)的三角形運(yùn)算,無(wú)法滿足構(gòu)建「光滑」模型的要求。隨著GPU的運(yùn)算性能加強(qiáng),當(dāng)我們可以在一秒的時(shí)間里渲染出千萬(wàn)級(jí)的三角形并組成3D模型,那么在游戲玩家的眼中,這個(gè)模型就有著非常真實(shí)的視覺(jué)效果,也就是「擬真級(jí)」精細(xì)建模。
因?yàn)樾枰幚淼娜蝿?wù)簡(jiǎn)單(生成三角形并著色),但是任務(wù)數(shù)量卻非常多(千萬(wàn)級(jí)),導(dǎo)致GPU成為一個(gè)偏科生。論對(duì)單個(gè)數(shù)據(jù)的處理能力,GPU與CPU的對(duì)比就像是小嬰兒與大學(xué)生,區(qū)別在于GPU是上千萬(wàn)個(gè)“小嬰兒”的集合,而CPU則是幾十個(gè)大學(xué)生的集合。
當(dāng)我們需要執(zhí)行一個(gè)將1000萬(wàn)個(gè)“三角形”從左邊移動(dòng)到右邊的任務(wù)時(shí),GPU和CPU誰(shuí)的效率會(huì)更高?GPU的并行計(jì)算能力,也是其能夠處理復(fù)雜3D模型渲染的關(guān)鍵。
而在生成式AI誕生后,人們發(fā)現(xiàn)GPU的并行計(jì)算能力,遠(yuǎn)比CPU要更適合進(jìn)行AI運(yùn)算,其中的原因則與AI大模型的底層結(jié)構(gòu)有關(guān)。雖然在我們的眼中,AI大模型根據(jù)數(shù)據(jù)集群的不同,可以生成文字、圖畫(huà)、音樂(lè)等各種類型的結(jié)果,但是在實(shí)際運(yùn)算中,所有數(shù)據(jù)其實(shí)都以一種形式存在——Token,也就是「最小語(yǔ)義單元」。
當(dāng)你輸入一段文字時(shí),應(yīng)用程序會(huì)將文字拆解為數(shù)以萬(wàn)計(jì)的Token,然后再丟到處理核心中進(jìn)行計(jì)算。這個(gè)過(guò)程是否很眼熟?沒(méi)錯(cuò),整個(gè)邏輯與GPU渲染一個(gè)箱子其實(shí)是一樣,將一個(gè)任務(wù)拆分成大量的小任務(wù),然后根據(jù)AI模型的邏輯推理來(lái)整合結(jié)果并輸出答案。
可以說(shuō),在AI時(shí)代的數(shù)據(jù)中心里,GPU就是整個(gè)AI算力矩陣的核心,其重要性要遠(yuǎn)遠(yuǎn)超過(guò)CPU,而掌握著最先進(jìn)GPU的廠商,將成為半導(dǎo)體領(lǐng)域的無(wú)冕之王。
GPU為王、CPU為輔,群雄逐鹿AI計(jì)算
在目前的AI市場(chǎng)中,大多數(shù)人都認(rèn)可一個(gè)觀點(diǎn):英偉達(dá)就是AI算力的代名詞。不管是每秒可以進(jìn)行數(shù)十萬(wàn)億次浮點(diǎn)運(yùn)算的H100,還是目前最強(qiáng)的消費(fèi)級(jí)AI顯卡RTX 4090,都讓英偉達(dá)成為商業(yè)領(lǐng)域和消費(fèi)領(lǐng)域無(wú)可爭(zhēng)議的NO.1。
特別是在消費(fèi)領(lǐng)域,英偉達(dá)已經(jīng)成為個(gè)人AI計(jì)算機(jī)的唯一選擇,其背后的原因就是英偉達(dá)的「殺手锏」——CUDA。CUDA是由NVIDIA開(kāi)發(fā)的并行計(jì)算平臺(tái)和編程模型,他的作用是允許開(kāi)發(fā)者利用英偉達(dá)GPU的強(qiáng)大并行計(jì)算性能來(lái)執(zhí)行通用計(jì)算任務(wù)。

圖源:英偉達(dá)
看完上一章節(jié)的朋友,估計(jì)會(huì)有點(diǎn)蒙,為什么要用GPU來(lái)執(zhí)行通用計(jì)算任務(wù)?這不是CPU的工作嗎?沒(méi)錯(cuò),通用計(jì)算任務(wù)確實(shí)是CPU的強(qiáng)項(xiàng),但是俗話說(shuō)得好:三個(gè)臭皮匠,頂個(gè)諸葛亮。當(dāng)GPU的并行算力強(qiáng)大到一定程度,那么只要有一個(gè)可以進(jìn)行任務(wù)轉(zhuǎn)換的模型,就可以將GPU算力運(yùn)用在通用計(jì)算任務(wù)里。
與此同時(shí),英偉達(dá)還為CUDA提供了豐富的工具和庫(kù),以及各種運(yùn)算模型,讓使用英偉達(dá)GPU的開(kāi)發(fā)者可以大幅度節(jié)省開(kāi)發(fā)時(shí)間,并且更好地發(fā)揮GPU性能。正是利用CUDA對(duì)并行算力的支配,使得英偉達(dá)GPU可以在個(gè)人電腦里有效執(zhí)行各種通用計(jì)算任務(wù),為用戶提供足以支撐本地AI大模型部署的AI算力。
那么AMD就沒(méi)有類似的工具嗎?其實(shí)是有的,名為ROCm,ROCm的前身Radeon Open Compute其實(shí)早在2016年就已經(jīng)發(fā)布,主要用于通用 GPU 計(jì)算(GPGPU)、高性能計(jì)算(HPC)和異構(gòu)計(jì)算等領(lǐng)域。但是因?yàn)槿狈ψ銐虻闹С郑陨鷳B(tài)規(guī)模遠(yuǎn)遠(yuǎn)無(wú)法與CUDA相比,而在生成式AI爆火之后,AMD很快就意識(shí)到了Radeon Open Compute的重要性,將其更名為ROCm并投入大量的資源進(jìn)行更新。

圖源:AMD
作為一個(gè)AMD顯卡用戶,其實(shí)在過(guò)去的兩年里是可以明顯感受到AMD在AI領(lǐng)域的進(jìn)步,曾經(jīng)只能通過(guò)轉(zhuǎn)譯方式運(yùn)行本地AI模型的AMD顯卡,如今已經(jīng)可以借助ROCm的工具,實(shí)現(xiàn)原生本地AI模型部署和運(yùn)算,效率和算力都有著質(zhì)的變化。
雖然還無(wú)法與CUDA相比,但是已經(jīng)讓人看到了些許的希望,更何況從價(jià)格上來(lái)說(shuō),性能相近的AMD顯卡價(jià)格往往只要英偉達(dá)顯卡的80%甚至70%。這也意味著AMD只要可以解決通用計(jì)算模型的問(wèn)題,那么就可以為個(gè)人及小型企業(yè)提供更具性價(jià)比的選擇,吃下相當(dāng)一部分AI顯卡市場(chǎng)。
不過(guò)在ROCm成熟之前,英偉達(dá)都仍然會(huì)是消費(fèi)級(jí)AI市場(chǎng)的最佳選擇。
與消費(fèi)級(jí)市場(chǎng)不同的是,AMD在服務(wù)器市場(chǎng)的增長(zhǎng)卻十分迅猛,Data Center Dunamics的數(shù)據(jù)顯示,2024年第一季度,AMD的數(shù)據(jù)中心業(yè)務(wù)創(chuàng)下內(nèi)部收入的新紀(jì)錄,同比增長(zhǎng)達(dá)38%。而在第二季度,AI服務(wù)器的出貨量同比增長(zhǎng)41.5%,占整體出貨量的12.2%。
雖然從整體的市場(chǎng)份額來(lái)看,英偉達(dá)仍然占據(jù)著90%以上的市場(chǎng),但是AMD也并非唯一的挑戰(zhàn)者。
谷歌前段時(shí)間推出的TPU(Tensor Processing Unit)芯片就專門(mén)用于加速機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù),采用Arm架構(gòu)設(shè)計(jì),在性能和能效上都有出色表現(xiàn),已經(jīng)被運(yùn)用在谷歌的多項(xiàng)AI服務(wù)中。
而英特爾則是通過(guò)收購(gòu)Habana Labs拿到了Gaudi AI加速器,結(jié)合新一代至強(qiáng)處理器的AI加速功能,緊密布局CPU AI領(lǐng)域。這個(gè)市場(chǎng)的規(guī)模同樣不小,因?yàn)椴⒎撬袛?shù)據(jù)中心都以AI為核心應(yīng)用,新一代CPU數(shù)據(jù)中心可以更好地兼顧通用型計(jì)算任務(wù)和AI計(jì)算任務(wù),減少重復(fù)建設(shè)數(shù)據(jù)中心的成本與維護(hù)花銷。
此外,英特爾也一直在關(guān)注移動(dòng)PC的AI需求,這是英偉達(dá)目前最為弱勢(shì)的市場(chǎng),因?yàn)橛ミ_(dá)GPU雖然有著出色的AI算力,代價(jià)卻是極高的功耗,無(wú)法滿足移動(dòng)PC的長(zhǎng)續(xù)航要求,這就為英特爾等廠商留下了可乘之機(jī)。
在今年的IFA上,英特爾就推出了內(nèi)置新一代NPU(AI加速核心)的酷睿Ultra 200v系列處理器,提供強(qiáng)大算力支持的同時(shí)還兼顧了長(zhǎng)續(xù)航等要求,與高通等新一代Arm PC處理器在AI PC市場(chǎng)展開(kāi)激烈爭(zhēng)奪。
短時(shí)間來(lái)看,英偉達(dá)在AI算力市場(chǎng)的優(yōu)勢(shì)仍然巨大,但是長(zhǎng)遠(yuǎn)來(lái)看,群狼環(huán)伺之下的AI市場(chǎng),英偉達(dá)雙拳難敵四手。諸如移動(dòng)PC、智能終端等英偉達(dá)的弱勢(shì)市場(chǎng),很快就會(huì)被其他廠商瓜分干凈,而關(guān)鍵的服務(wù)器市場(chǎng)也并非高枕無(wú)憂,AMD的MI300系列AI顯卡份額增長(zhǎng)迅速,已經(jīng)足夠引起英偉達(dá)的警覺(jué)。
不過(guò),競(jìng)爭(zhēng)所帶來(lái)的創(chuàng)新與發(fā)展,才是科技進(jìn)步的關(guān)鍵,隨著AI領(lǐng)域的競(jìng)爭(zhēng)加劇,實(shí)際上也在推動(dòng)AI成本的下降,讓AI技術(shù)得到更快、更廣泛的應(yīng)用。最后,我想用吳泳銘先生演講中的一句話來(lái)作為結(jié)尾:
AI驅(qū)動(dòng)的數(shù)字世界連接著具備AI能力的物理世界,將會(huì)大幅提升整個(gè)世界的生產(chǎn)力,對(duì)物理世界的運(yùn)行效率產(chǎn)生革命性的影響。
一個(gè)嶄新的世界,近在咫尺。





京公網(wǎng)安備 11011402013531號(hào)