谷歌正在推進一項名為"TorchTPU"的內部計劃,旨在提升其人工智能芯片對全球最廣泛使用的AI軟件框架PyTorch的兼容性,此舉直指英偉達長期以來依賴的軟件生態護城河。
據彭博社周四報道,知情人士透露稱,谷歌正與meta密切合作推進這一計劃,meta作為PyTorch的創建者和管理者,希望通過降低推理成本并使AI基礎設施多元化,以增強與英偉達的談判籌碼。谷歌還在考慮將部分軟件開源,以加速客戶的采用速度。
與過去支持PyTorch的嘗試相比,谷歌此次投入了更多組織資源和戰略重視。隨著越來越多企業希望采用張量處理單元(TPU)芯片,但將軟件堆棧視為瓶頸,這一計劃已成為谷歌云業務的關鍵增長引擎。
如果成功,TorchTPU將顯著降低企業從英偉達GPU轉向替代方案的切換成本。英偉達的主導地位不僅依賴硬件,更依賴其深度嵌入PyTorch的CUDA軟件生態系統,而這一生態已成為企業訓練和運行大型AI模型的默認方法。
軟件兼容成TPU推廣最大障礙
谷歌的TorchTPU計劃旨在消除阻礙TPU芯片采用的關鍵障礙。知情人士表示,企業客戶一直向谷歌反饋,TPU在AI工作負載上更難采用,因為歷史上開發者需要轉向谷歌內部青睞的機器學習框架Jax,而非大多數AI開發者已在使用的PyTorch。
這一不匹配源于谷歌自身的技術路徑。谷歌內部軟件開發團隊長期使用名為Jax的代碼框架,其TPU芯片則依靠XLA工具來高效運行代碼。谷歌自身的AI軟件堆棧和性能優化主要圍繞Jax構建,這擴大了谷歌使用芯片方式與客戶需求之間的差距。
相比之下,英偉達的工程師多年來一直確保使用PyTorch開發的軟件能在其芯片上盡可能快速高效地運行。PyTorch是一個開源項目,其發展歷史與英偉達CUDA軟件的開發緊密相連。CUDA被華爾街部分分析師視為英偉達抵御競爭對手的最強護盾。
谷歌加速TPU外部銷售
Alphabet長期以來將其TPU芯片的絕大部分份額保留給內部使用。這一情況在2022年發生改變,當時谷歌云計算部門成功游說,獲得了TPU銷售團隊的管理權。此舉大幅增加了谷歌云的TPU配額。
隨著客戶對AI興趣的增長,谷歌一直尋求通過提高TPU產量和對外銷售來獲利。TPU銷售已成為谷歌云收入的關鍵增長引擎,該公司正努力向投資者證明其AI投資正在產生回報。
今年,谷歌開始將TPU直接銷售到客戶的數據中心,而不再限制只能通過自家云服務訪問。本月,谷歌資深人士Amin Vahdat被任命為AI基礎設施負責人,直接向首席執行官Sundar Pichai匯報。谷歌需要這些基礎設施來運行自己的AI產品,包括Gemini聊天機器人和AI驅動的搜索,同時也要供應給Anthropic等谷歌云客戶。
meta成為戰略合作伙伴
為加速開發進程,谷歌正在與meta密切合作。據The Information首次報道,兩家科技巨頭一直在討論meta獲取更多TPU的交易。
知情人士透露,早期為meta提供的服務采用谷歌托管模式,即meta等客戶安裝谷歌設計的芯片來運行谷歌軟件和模型,由谷歌提供運營支持。meta在開發使TPU更易運行的軟件方面具有戰略利益,希望借此降低推理成本,并使其AI基礎設施從英偉達GPU多元化,從而獲得談判優勢。
谷歌云發言人未就該項目的具體細節置評,該發言人表示:“我們看到對TPU和GPU基礎設施的大規模加速需求。我們的重點是提供開發者所需的靈活性和規模,無論他們選擇在哪種硬件上構建。”meta則拒絕置評。
降低切換成本挑戰英偉達生態
PyTorch最初于2016年發布,是開發AI模型的開發者最廣泛使用的工具之一。在硅谷,很少有開發者會編寫英偉達、Advanced Micro Devices或谷歌芯片實際執行的每一行代碼。相反,這些開發者依賴PyTorch等工具,這是一個預編寫代碼庫和框架的集合,可以自動化AI軟件開發中的許多常見任務。
知情人士表示,隨著希望采用TPU芯片但將軟件堆棧視為瓶頸的企業需求增長,谷歌已將更多組織重點、資源和戰略重要性投入TorchTPU項目。大多數開發者無法輕松采用谷歌芯片并使其性能達到英偉達水平,除非進行大量額外的工程工作。在快節奏的AI競賽中,這類工作需要時間和資金。
如果TorchTPU計劃成功,將顯著降低希望尋求英偉達GPU替代方案的企業的切換成本。英偉達的主導地位不僅由其硬件加固,更依賴其深度嵌入PyTorch的CUDA軟件生態系統,這已成為企業訓練和運行大型AI模型的默認方法。





京公網安備 11011402013531號