![]()
編輯|張倩、+0
在被谷歌 TPU 挑戰霸主地位后,英偉達終于急了?
今天,人工智能芯片初創公司 Groq 發布了一則重磅消息,他們已經與英偉達就 Groq 的推理技術達成了非排他性許可協議。
![]()
這個協議并不是說英偉達要把 Groq 買下來,而是挖走 Groq 的幾員大將 —— 創始人兼 CEO Jonathan Ross、總裁 Sunny Madra 及多名核心工程師。要知道,Jonathan Ross 曾在谷歌主導 TPU 的開發。2016 年底,他從谷歌離職,并帶走了當時 TPU 核心 10 人團隊中的 7 位 。這批人帶走了 TPU 最核心的技術理念和設計經驗,在加州山景城共同創辦了 AI 芯片公司 Groq。
這批人和他們的知識產權有多值錢?看看交易額就知道了。據 Groq 投資者、Disruptive Technology Advisers 的首席執行官 Alex Davis 透露,這筆交易價值約 200 億美元,這比該初創公司 9 月份的估值還高出 131 億美元。
交易過后,Groq 將繼續作為獨立公司運營,由首席財務官 Simon Edwards 接任 CEO,其 GroqCloud 云服務也將正常運行。
通過這種方式,英偉達可以在不直接購買的情況下獲得初創企業的人才和技術,被稱為 Reverse Acquihire(反向收購雇傭)。這種方式避免了與傳統收購相關的反壟斷審查。在過去三年中,微軟、meta 等科技巨頭已經達成了多項此類交易,以推進其人工智能發展路線圖。
Groq 最引人注目的是其自主研發的 LPU(語言處理單元)芯片。與英偉達主導的 GPU 不同,LPU 專為 AI 推理場景設計,號稱運行大語言模型的速度可達 GPU 的 10 倍,能耗卻只有十分之一。而這正是英偉達所需要的,因為 TPU 之所以能挑戰英偉達的霸主地位,「能耗、延遲方面能打」是一個關鍵優勢。
英偉達 CEO 黃仁勛在內部郵件中表示,計劃將 Groq 的低延遲處理器整合到英偉達 AI 工廠架構中,以支持更廣泛的 AI 推理和實時工作負載。
TPU 之父帶隊
Groq 用 LPU 闖出一片天
Groq 成立于 2016 年,其誕生源于對傳統計算架構的深刻反思。創始人 Jonathan Ross 曾師從 Yann LeCun,后來在 Google 任職。他參與了谷歌 TPU 項目(當時為 20% 項目),負責設計和實現第一代 TPU 芯片的核心組件。TPU 的成功證明了專用架構在 AI 計算上的巨大潛力,也成為了 Groq 技術的起點。
![]()
Google 有一個著名的「20% 自由時間」文化,允許工程師用工作時間的 20% 去做自己感興趣、但并非老板指派的「私活」或「創新項目」。
Ross 認為,傳統的 CPU 和 GPU 架構為了兼顧圖形渲染和通用計算,保留了復雜的緩存管理、分支預測及動態硬件調度。這些設計雖然提高了通用性,但導致了計算性能的不可預測性,并非 AI 推理的必要組件。基于此,Groq 確立了「軟件定義的確定性」這一核心理念。
LPU(Language Processing Unit)摒棄了傳統的硬件調度器,改由編譯器在編譯階段精確計算每一步數據的流動和時序。這種設計消除了「緩存未命中」和「分支預測失敗」的風險,核心計算單元 TSP(Tensor Streaming Processor)采用流式處理模式,確保數據如流水線般處理,沒有任何閑置周期。


在存儲方案上,Groq 未采用 Nvidia GPU 常用的高帶寬內存(HBM),而是將靜態隨機存取存儲器(SRAM)直接集成在芯片內部。這種設計使單芯片內存帶寬高達 80TB/s,是傳統 HBM 方案的 20 倍以上。盡管 SRAM 占地面積大導致單芯片容量極小(約 230MB),但其極高的帶寬允許 LPU 在 Batch Size 為 1(即單次處理一個請求)的情況下依然保持計算單元滿載,從而實現極低的延遲。
由于單芯片內存有限,運行 Llama 3 70B 這樣的大模型通常需要數百張芯片級聯。為此,Groq 研發了 RealScale 互聯技術。該技術不依賴傳統的網絡交換機,而是通過直接線纜連接,并解決了「晶振漂移」導致的時鐘不同步問題。在這一架構下,整個集群實現了全局時鐘同步,數百張芯片宛如一枚巨大的虛擬芯片協同工作。
得益于上述設計,Groq 在處理大語言模型時展現出差異化的性能優勢:在 Llama 系列模型的推理中,其響應速度可達每秒 500 Tokens(相比之下 ChatGPT 約為 40 Tokens/s),且幾乎沒有延遲抖動,在實時交互場景中建立了獨特的競爭壁壘。
但為了換取這種極致速度,Groq 方案在物理空間和功耗上付出了代價:一個標準機架滿載功耗約為 26kW 至 30kW,且需要比 GPU 方案更多的機架數量來承載同等規模的模型參數。
TPU 步步緊逼
英偉達急了?
英偉達這次的大手筆屬于形勢所迫,因為他們的 AI 芯片霸主地位正面臨嚴峻挑戰。
目前,AI 算力市場的需求正從訓練轉向推理。預計到 2030 年,推理將占 AI 計算總量的 75%,市場規模達 2550 億美元。但在推理方面,英偉達的芯片并不具備絕對優勢,面臨谷歌 TPU、Groq LPU 等多方面競爭。
先來說谷歌 TPU。此前,SemiAnalysis 的一篇文章報道稱,谷歌新出的 TPU v7 實現了很高的實際模型算力利用率,總體擁有成本比英偉達 GB200 系統低約 30%~40%。也就是說,用上 TPU 之后,企業可以省一大筆錢。而且,谷歌的 TPU 不再局限于自家使用,而是開始大規模出貨,預計 2027 年實現年產 500 萬顆的目標。
市場的反應也能說明一切:2025 年 10 月,Anthropic 協議通過多達 100 萬個 TPU 獲取超過 10 億瓦的谷歌算力;11 月,meta 開始洽談于 2027 年在其數據中心使用谷歌 TPU。這樣的轉向足以給英偉達帶來壓力。
除了谷歌,Groq 也是不容小覷的競爭對手。早期 Groq 保持相對低調。但隨著 2023 年至 2024 年生成式 AI 市場的爆發,行業重心從訓練端向推理端延伸,Groq 憑借在模型推理上的速度優勢受到關注,資本市場隨即跟進。
最引人注目的是,今年 2 月,Groq 與沙特阿美數字公司簽訂 15 億美元協議,合作建設全球最大 AI 推理數據中心,初期部署 19000 個 LPU 處理器。2025 年 12 月,Groq 又簽署協議加入美國 AI「創世紀計劃」,成為 24 家簽署公司之一。
今年 9 月,Groq 剛剛完成 7.5 億美元融資,估值達到 69 億美元。公司透露,其平臺已服務超過 200 萬名開發者,較去年的 35.6 萬人增長了五倍多。
這些重要事件彰顯了 Groq 在 AI 芯片領域的潛力以及團隊的硬核研發能力,足以讓英偉達動心。
在這場交易之后,英偉達的霸主地位是否可以鞏固?我們拭目以待。
https://groq.com/blog/the-groq-lpu-explained
https://news.ycombinator.com/item?id=39431989
https://groq.com/blog/the-groq-lpu-explained




京公網安備 11011402013531號