《科創(chuàng)板日報(bào)》11月29日訊 隨著Gemini 3的橫空出世,谷歌TPU從幕后走到臺前。英偉達(dá)GPU的霸主地位已然有被撼動(dòng)跡象。
谷歌云內(nèi)部高管透露,擴(kuò)大TPU的市場采用率,有望幫助公司搶占英偉達(dá)年收入份額的10%。緊接著,市場便傳出“谷歌加緊向客戶推銷TPU”“meta擬斥資數(shù)十億美元購買TPU”等一系列消息。大摩分析師大膽預(yù)測,2027年谷歌TPU外銷量將達(dá)到100萬顆。
另一邊,投資者紛紛用腳投票,表達(dá)了對英偉達(dá)GPU市場遭遇侵蝕的擔(dān)憂。英偉達(dá)官方發(fā)布緊急聲明,強(qiáng)調(diào)自家產(chǎn)品比ASIC擁有更高的性能、更強(qiáng)的通用性以及更好的可替代性。
從閉關(guān)修煉的隱世高手,到如今直通AI芯片的決賽圈,谷歌TPU的起源還要從12年前的那場“算力焦慮”說起。
▌深度學(xué)習(xí)的最優(yōu)解
2013年,深度學(xué)習(xí)在谷歌內(nèi)部的應(yīng)用開始不斷擴(kuò)散,后臺模型的復(fù)雜度和算力消耗規(guī)模逐漸呈指數(shù)級增長。谷歌首席科學(xué)家Jeff Dean通過計(jì)算發(fā)現(xiàn),若1億安卓用戶每天使用3分鐘語音轉(zhuǎn)文字服務(wù),則消耗的算力竟高達(dá)谷歌所有數(shù)據(jù)中心總算力的兩倍不止。
堆砌GPU以獲取算力固然是符合直覺的選項(xiàng),但由于“馮·諾依曼瓶頸”的存在,導(dǎo)致諸如CPU和GPU等計(jì)算單元在處理深度學(xué)習(xí)中大規(guī)模矩陣乘法等特定任務(wù)時(shí)效率低下。相比之下,自研ASIC加速器可為機(jī)器學(xué)習(xí)任務(wù)定制架構(gòu),能將深度神經(jīng)網(wǎng)絡(luò)推理的總體能效降至原來的十分之一,長期來看成本更為可觀。
于是在2013年底,谷歌正式啟動(dòng)了初代TPU項(xiàng)目。據(jù)報(bào)道,當(dāng)時(shí)谷歌內(nèi)部有三個(gè)團(tuán)隊(duì)投身于ASIC的研發(fā)工作,包括 Google Brain、DeepMind以及專注數(shù)據(jù)中心定制硬件開發(fā)的部門。后者的TPU最終獲選,其關(guān)鍵成員具備多年的芯片架構(gòu)設(shè)計(jì)經(jīng)驗(yàn)。如Jonathan Ross曾參與AMD的Zen架構(gòu)設(shè)計(jì),并于后來創(chuàng)立了AI芯片設(shè)計(jì)公司Groq。
谷歌團(tuán)隊(duì)進(jìn)展迅速,距立項(xiàng)僅過去15個(gè)月,便完成了初代TPU的設(shè)計(jì)、驗(yàn)證、制造,乃至在數(shù)據(jù)中心的部署。項(xiàng)目牽頭人Norm Jouppi如此描述當(dāng)時(shí)情景:“我們的芯片設(shè)計(jì)速度非常快,在沒有修正錯(cuò)誤或更改掩膜的情況下便已開始出貨芯片。”
2016年,TPU迎來了它的首個(gè)“破圈時(shí)刻”:人工智能圍棋程序AlphaGo擊敗了世界圍棋冠軍李世石,引發(fā)了人們對AI的廣泛關(guān)注。當(dāng)時(shí)AlphaGo背后正是初代TPU在提供算力支持。
研發(fā)上,重大的轉(zhuǎn)折發(fā)生在2017年。這一年,谷歌團(tuán)隊(duì)在《Attention Is All You Need》中介紹了Transformer——一種基于注意力機(jī)制的全新深度學(xué)習(xí)架構(gòu)。其計(jì)算特性與TPU設(shè)計(jì)高度適配,最終推動(dòng) TPU的戰(zhàn)略地位從單一AI加速芯片升級為谷歌的AI基礎(chǔ)設(shè)施底座。值此背景下,TPU v2應(yīng)運(yùn)而生。
同樣在這一年,谷歌宣布免費(fèi)開放 1000 臺 Cloud TPU 供開發(fā)者和研究人員使用,進(jìn)一步鞏固了TPU 作為AI 基礎(chǔ)設(shè)施底座的地位。往后的日子里,谷歌引入了大規(guī)模液冷技術(shù),將4096顆芯片組成超節(jié)點(diǎn),并利用自研的環(huán)形拓?fù)渚W(wǎng)絡(luò)實(shí)現(xiàn)近乎無損的跨芯片通信。在各路“外掛”的加持下,TPU朝著更強(qiáng)的性能一路狂飆。
而在技術(shù)之外,谷歌也毫不慳吝地將TPU引進(jìn)廣告系統(tǒng)、搜索核心排序等賺錢產(chǎn)品線。在2024年的應(yīng)用開發(fā)與基礎(chǔ)設(shè)施峰會上,谷歌公開表示,TPU V6及后續(xù)版本的目標(biāo)是成為“推理時(shí)代最省錢的商業(yè)引擎”。
往后的故事逐漸為人所熟知,隨著TPU v7被投入人工智能訓(xùn)練,當(dāng)今公認(rèn)的最強(qiáng)多模態(tài)模型Gemini 3橫空出世。谷歌也搖身一變,從算力芯片領(lǐng)域的追隨者一躍成為市場眼中的AI新王。人們不禁好奇,十年磨一芯,谷歌究竟做對了什么?
▌難以復(fù)制的生態(tài)護(hù)城河
回顧谷歌的造芯故事,里面沒有通往AGI的宏大愿景,也沒有遵循Scaling Law的絕對指引,而是始終緊扣一項(xiàng)更符合商業(yè)邏輯,也更顯務(wù)實(shí)的指標(biāo)——成本。
如果深究,則TPU的歷史可以一直追溯到2006年,那時(shí)谷歌便開始考慮為神經(jīng)網(wǎng)絡(luò)構(gòu)建ASIC的可能性。只不過由于當(dāng)時(shí)互聯(lián)網(wǎng)正處于爆發(fā)前夜,谷歌數(shù)據(jù)中心的GPU算力仍有大量冗余,相關(guān)需求并不迫切,因此并未透支額外成本來實(shí)際推進(jìn)這一計(jì)劃。
這種“量體裁衣”的理念甚至體現(xiàn)在TPU的設(shè)計(jì)架構(gòu)本身。與GPU不同,TPU采用極簡的“脈動(dòng)陣列”架構(gòu),這雖然付出了放棄硬件通用性的代價(jià),但也意味著能夠剝離掉一切無關(guān)硬件,從而保證在最小單位追求深度學(xué)習(xí)的最大效率。
現(xiàn)如今,這種設(shè)計(jì)架構(gòu)顯然為谷歌帶來了遠(yuǎn)超“節(jié)省成本”的回報(bào),即與其他頂尖AI廠商掰手腕的資本。
更重要的意義在于,與其他廠商嚴(yán)重依賴外部算力和云設(shè)施不同,谷歌以TPU為底座的垂直整合路線,構(gòu)建出了“芯片-云-模型-應(yīng)用”的全棧AI能力鏈條。正如券商分析師們所言,這令其形成了難以復(fù)制的生態(tài)護(hù)城河,也贏得了定義未來AI基礎(chǔ)設(shè)施的入場券。





京公網(wǎng)安備 11011402013531號