
“AWS曾主動降價12次,云大廠在智算產(chǎn)業(yè)競爭中并非絕對安全者。”
作者丨劉伊倫
編輯丨包永剛
“行業(yè)內(nèi)平均算力使用率不足30%,大量算力閑置浪費。”
“消納難”已經(jīng)成為整個算力行業(yè)的通病,除了為頭部互聯(lián)網(wǎng)公司定制化供應算力的大型AIDC廠商,絕大多數(shù)智算中心都在面對同樣的困境。
造成大規(guī)模算力閑置,除了供大于求之外,裸金屬租賃的商業(yè)模式本身也存在無法規(guī)避的弊端。九章云極COO尚明棟認為,裸金屬租賃意味著鎖定兩樣東西:時間與資源邊界。為了覆蓋前期建設和硬件采購成本,算力租賃企業(yè)往往傾向于“整租長租”,這就使得資源消納完全由單個主體決定,無法開放給其他企業(yè)使用。
從經(jīng)濟角度來看,這種模式只適合少數(shù)擁有大規(guī)模模型訓練需求的廠商,而這類廠商數(shù)量有限,市場需求容易飽和。一位行業(yè)人士曾直言:“大廠都有自己的圈子,外部企業(yè)很難進入供應鏈,拿不到訂單。”在技術能力和客情關系都不足的情況下,盲目建設的算力集群往往無人問津。即便推理算力需求迎來爆發(fā),這些廠商也難以應對零散而彈性的算力需求。
“算力作為基礎設施本質上是一種運營型的生意,而不是一次交付就結束的產(chǎn)品。算力項目的核心價值在于持續(xù)被使用和消納。”尚明棟說道。如何做好算力運營?更多方式與手段,歡迎添加微信YONGGANLL6662互通有無。
這并非空談。
尚明棟曾在微軟擔任服務器高可用集群和文件系統(tǒng)的核心開發(fā)工程師,參與Windows 7、Windows 8研發(fā),同時也是SMB 3.0(網(wǎng)絡文件共享協(xié)議)的主要擬草人之一。
在微軟,他親眼見證了操作系統(tǒng)如何統(tǒng)籌硬件資源、管理軟件生態(tài),并通過標準化接口讓開發(fā)者能夠高效利用底層能力。這段經(jīng)歷讓他意識到,算力運營同樣需要這種思路:它不是單純交付算力的項目,而是要像操作系統(tǒng)一樣,統(tǒng)籌硬件、定義軟件、孵化生態(tài),才能真正優(yōu)化成本和效率。
2013年,方磊和尚明棟聯(lián)合創(chuàng)立九章云極DataCanvas。尚明棟現(xiàn)擔任COO,負責人工智能基礎設施的軟件架構、團隊管理以及智算產(chǎn)品創(chuàng)新,打造了Alaya NeW智算中心操作系統(tǒng),并定義了“一度算力”(一種標準化的算力量度單位)的標準。
這套系統(tǒng)不僅體現(xiàn)了他對算力運營的理解,也成為了公司在市場中探索新商業(yè)模式、應對行業(yè)挑戰(zhàn)的重要工具。
算力行業(yè)的狂熱期已過,留下的,是市場的收束與沉淀。曾經(jīng)風頭無兩的大規(guī)模算力建設和裸金屬租賃,會否成為歷史?當推理算力需求迎來爆發(fā),智算云平臺能否在混沌中開辟新的發(fā)展路徑?在大廠環(huán)伺的云計算市場中,創(chuàng)業(yè)公司又能否找到突圍之道?
以下是雷峰網(wǎng)和尚明棟的對話,為便于理解,訪談內(nèi)容經(jīng)編輯:
01
智算中心操作系統(tǒng):統(tǒng)籌硬件、孵化生態(tài),實現(xiàn)算力成本的極致優(yōu)化
雷峰網(wǎng):在算力行業(yè)的發(fā)展過程中,出現(xiàn)了包銷承諾、項目套利、股價炒作以及補貼套取等現(xiàn)象,您如何看待這些問題?
尚明棟:算力行業(yè)作為新興產(chǎn)業(yè),在探索與發(fā)展過程中不可避免地會經(jīng)歷試錯。但不同背景的團隊在試錯方向上存在差異:傳統(tǒng)IDC團隊與AI Infra團隊的著力點并不相同。當前出現(xiàn)的虛假承諾、項目套利等問題,本質上源于產(chǎn)業(yè)在政策、監(jiān)管和商業(yè)模式上的不成熟,許多企業(yè)也因此更傾向于追逐短期利益,而非推動行業(yè)的長期健康發(fā)展。
對于傳統(tǒng)IDC廠商而言,其主要訴求是盡快找到新的盈利模式,但往往延續(xù)了“堆硬件”的思路。在智算時代,這種方式帶來巨大的資金壓力。
對于AI Infra廠商而言,國內(nèi)算力需求主要集中在大模型的訓練、推理、微調(diào)和開發(fā),因此算力的價值并不僅僅體現(xiàn)在計算能力,而是“算力+存力(存儲)+運力(網(wǎng)絡)”的綜合體現(xiàn)。如果不能意識到這一點,就會導致智算云或智算中心在組網(wǎng)方案與算力消納上的不合理,進而在運營過程中產(chǎn)生瓶頸和問題。
雷峰網(wǎng):不少智算云都提出“算力普惠”的目標,實現(xiàn)算力普惠的關鍵是什么?
尚明棟:實現(xiàn)算力普惠主要有兩個方面,一是算力的使用成本低,二是調(diào)用算力的技術門檻低。
算力是繼交通、能源和通信之后的第四大基礎設施,這些基建在不同的歷史階段都支撐了某個行業(yè)甚至全球產(chǎn)業(yè)的發(fā)展,大規(guī)模的使用意味著算力必須降低成本。另一方面,不依賴于專業(yè)的技術人員,普通人也可以調(diào)用算力,像使用電力一樣,其實你只需要一個非常標準化的插頭,就可以使用。
此外,算力作為基礎設施本質上是一種運營型的服務,并不是拿下一個項目然后交付完就結束了,算力項目所提供的算力服務應該被持續(xù)的使用和消納。
雷峰網(wǎng):您說算力本質是運營型的生意,這個運營模式是由什么來支撐和實現(xiàn)的?
尚明棟:是由智算中心操作系統(tǒng)支撐實現(xiàn)的。提到操作系統(tǒng),最先想到的是Windows和Linux,智算中心也需要一套操作系統(tǒng),所以我們推出了智算中心操作系統(tǒng)“Alaya NeW”。
操作系統(tǒng)有兩個最核心的能力:一是向下管理硬件資源的協(xié)同,包括GPU、網(wǎng)絡、大容量存儲、閃存以及緩存調(diào)度,這樣才能真正實現(xiàn)“算力+運力+存力”綜合體現(xiàn)的算力服務方案。 在Windows系統(tǒng)里,屏幕、鍵盤、內(nèi)存及所有的外設都是硬件,對其進行管理協(xié)同調(diào)度,是操作系統(tǒng)最基本的能力。
另一方面,向上提供大模型工具鏈,包括訓練框架、開發(fā)套件、推理平臺及強化學習平臺等,這些工具鏈用于降低開發(fā)者的門檻,并且以此提高用戶的粘性,支撐人工智能應用生態(tài)的落地。社區(qū)愿意在這個平臺上去開發(fā)出針對行業(yè)的應用,這對操作系統(tǒng)而言才是價值最大化的。
對硬件的納管以及彈性算力的調(diào)度,最終會體現(xiàn)為算力成本的極致優(yōu)化,向上對生態(tài)的支持則最終體現(xiàn)為降低開發(fā)的門檻和壁壘,以此形成穩(wěn)定的上下游合作伙伴的關系。
02
從“以租代建”到“即用即付”,算力會迎來零售時代嗎?
雷峰網(wǎng):為什么行業(yè)會出現(xiàn)兩種看似矛盾的聲音,一種認為算力大規(guī)模的閑置,另一種則覺得可負擔的算力供給不足?
尚明棟:認為算力過剩的,多是指望“堆硬件”然后能立刻租給大模型廠商的運營方,但現(xiàn)實是,具備強大消納能力的大模型廠商數(shù)量極少,這部分市場很容易飽和。而這些單純“堆硬件”的運營方,又沒有能力去承接市場上分散、碎片化的需求,于是乎就出現(xiàn)了兩種看似矛盾的聲音。
大量行業(yè)對算力的需求是靈活彈性的,需要九章云極這樣可以將算力進行靈活調(diào)度的智算云服務商。
雷峰網(wǎng):您提到對算力成本的極致優(yōu)化,那比如一臺8卡H100服務器目前的月租價格是5.5萬元,九章云極的智算云按照Token用量或者算力使用時長去計費,對客戶而言會有明顯的價格優(yōu)勢嗎?
尚明棟:九章云極的算力按算量計費,單純按價格看,零售的價格很難低于批發(fā)的價格。但考慮到行業(yè)內(nèi)平均的算力使用率不足30%,大量算力存在閑置浪費,通過再利用這部分資源,九章云極整體帶來的效益就優(yōu)于市面平均水平。
按Token計費也類似,但前提是按Token計費必須運行大模型,很多用戶會使用不同的大模型或垂類模型,導致按照Token計算很難標準化,除非用戶只使用單一模型,所以DeepSeek或豆包這樣的平臺才可以做到,因為它們提供統(tǒng)一的大模型服務。此外,實際使用中,用戶可能將算力用于生成圖像、模擬或數(shù)字人等不同場景,使用的方式也存在差異,因此需要以更底層的浮點運算量來衡量。
雷峰網(wǎng):九章云極如何設計浮點運算量的計費模式?
尚明棟:九章云極定義了“一度算力”作為對外銷售算力的最小計量單位,它衡量的是特定時間內(nèi)完成的浮點計算量。這種按用戶實際消耗的計算量計費的方式,核心價值在于確保客戶只為真正使用的算力付費,有效避免了傳統(tǒng)裸金屬模式中因資源閑置造成的浪費。
裸金屬模式意味著會鎖定兩樣東西:一個是鎖定時間,另一個是鎖定資源的邊界。
客戶選擇按時間去付費租用裸金屬服務器,運營商其實并不關心客戶把機器用到冒煙還是放在機房里面落灰,因為客戶已經(jīng)支付了費用。對于客戶而言,成本已經(jīng)支出,那么使用率越高越劃算。但是,實際上行業(yè)內(nèi)算力的平均使用率低于30%,這就意味著70%的裸金屬算力資源是浪費的。而這些浪費的算力其他企業(yè)也沒有路徑去使用,這就造成了算力的閑置問題。
按算量計費的模式打破了對算力時間和資源邊界的鎖定,但對于我們而言會有非常大的考驗:我們的智算云通過serverless架構對客戶提供按算量計費模式,這意味著客戶的算力浪費被極大的削減。
所以相比于裸金屬租賃,按算量計費的單位算力單價會更高。九章云極的價值在于,通過軟件技術實現(xiàn)靈活、彈性的算力調(diào)度,整合碎片化的需求,從而最大限度提高算力的使用效率,最終降低客戶的總成本,而九章云極又能在高效利用資源的過程中與客戶分利,獲得合理的受益。
雷峰網(wǎng):按照運算量計費能實現(xiàn)算力的高效使用,是不是意味著這種模式就是比裸金屬租賃更有優(yōu)勢?
尚明棟:不能一概而論。我們也服務一些擁有強大技術團隊、能夠長期保持高GPU利用率進行大規(guī)模訓練的客戶。對于這類持續(xù)、穩(wěn)定且高負載的需求,傳統(tǒng)的裸金屬租賃模式在成本上可能更具優(yōu)勢。九章云極尊重不同客戶的算力消納模式和成本考量,因此我們可根據(jù)客戶需求,提供不同算力模式服務。
雷峰網(wǎng):市面上的算力設備有很多型號,您們會根據(jù)不同的型號去設置不同的算力價格嗎?
尚明棟:不會的,九章云極的定價非常標準化,我們采用按實際消耗的計算量計費的模式(按算量計費),這種模式的單價設計會綜合考慮資源利用率提升帶來的成本優(yōu)化,目標是讓客戶在整體使用成本上更具優(yōu)勢。這類似于電力計量中的“一度電”,旨在為用戶提供清晰、標準化的算力消耗衡量標準,實現(xiàn)算力使用的“即用即付”和成本透明化。
雷峰網(wǎng):那是否可以說,九章云極也具備提供大規(guī)模算力集群服務的能力,可以去做頭部大客戶的生意?
尚明棟:理論上是可以的,但九章云極的核心競爭力和差異化優(yōu)勢在于高效服務對“靈活彈性算力有強烈需求”的客戶群體,這通常體現(xiàn)在百卡級、十卡級乃至更小顆粒度的算力服務需求上。當然,對于大規(guī)模、長期穩(wěn)定的算力需求,我們同樣具備提供裸金屬租賃服務的能力,但我們相信,通過云化、精細化的運營釋放碎片化算力價值的模式,是提升行業(yè)整體效率、實現(xiàn)算力普惠的關鍵路徑。
雷峰網(wǎng):服務大量的彈性算力客戶,就要求有龐大的算力資源池,九章云極的算力資源池是如何規(guī)劃的,自建還是于其他智算中心進行合作?
尚明棟:九章云極采用多元化的算力資源池構建策略,包括與戰(zhàn)略投資伙伴合作。由合作伙伴提供資金支持,九章云極則專注于利用自身的技術優(yōu)勢和Alaya NeW操作系統(tǒng),進行高效的算力集群建設和運營管理,確保資源池的高效利用。
九章云極的建設主要是把硬件算力設備變成能線上云化算力服務,覆蓋組網(wǎng)方案、存儲方案,安全方案以及算力操作系統(tǒng)部署等環(huán)節(jié)。運營其實就是平臺運維保障和算力消納,建設要服務于運營,不是簡單的第三方組網(wǎng)和堆硬件然后再交由九章云極運營,大多數(shù)第三方的組網(wǎng)方案很難達到“對外進行云化服務”這一要求。
雷峰網(wǎng):為什么說很多組網(wǎng)方案達不到這一要求,有遇見實際的失敗案例嗎?
尚明棟:根據(jù)智算中心的規(guī)劃要求,從硬件配置、計算、組網(wǎng)、存儲,到安全設計協(xié)同,是一個非常專業(yè)的架構設計到實施的過程。組網(wǎng)方案需要滿足九章云極的Alaya NeW OS的部署,能去跑一些Benchmark,獲得比較高的跑分,這堆算力的利用率可以達到一個很高的比值,絕大部分僅憑裸金屬進行簡單的鏈接組網(wǎng)是做不到的。
比如有的集群用了IB組網(wǎng),但為了降低成本只配了兩個網(wǎng)口,而如果需要進行充分交換,至少需要4-8個網(wǎng)口以及三級緩存,才能在推理或者訓練的時候通過增加存儲的吞吐來提高效率,避免由于存儲的瓶頸耽誤了對計算性能的發(fā)揮,這很不劃算,因為存儲的成本低,計算的成本高。
所以如果九章云極去接手第三方建設的集群,就需要改造和投入,這還不是一個標準化的方案就能服務的,需要千人千面去改造,這會極大的消耗我們的專業(yè)團隊,因而九章當前只運營我們自己建設的智算中心。
雷峰網(wǎng):所以九章云極不會對外去輸出這套建設和組網(wǎng)的方案。
尚明棟: 九章云極當前是建設和運營一體化為主,但也可以由九章云極單獨做建設或運營。如果九章云極只做運營,需要按照九章云極的組網(wǎng)方案去建設。第三方公司可以按照九章的方案,在其自己的供應鏈采購硬件,但要形成標準化的交付。
還有一種是九章云極只做建設,不做運營。很多大型集團下面一二級的子公司有上百家,建設算力資源主要是用于集團內(nèi)部使用,運營不用我們來負責。
03
AI Infra競爭格局:大廠云環(huán)伺,性價比與生態(tài)化成突圍關鍵
雷峰網(wǎng):有業(yè)內(nèi)人士認為,智算云服務的技術路線收斂之后,營收規(guī)模才是核心競爭力(因為能獲得客戶反饋,從而進行技術迭代),那面對大廠九章云極怎么去競爭?
尚明棟:AWS在2011-2013年間每年降價12次,因為微軟、谷歌等強勁對手入局挑戰(zhàn)。AWS有技術領先性,因為他們做電商出身有工程化的積累,也有客戶資源的積累,像AT&T都搬到了AWS的云上,但它還是需要去主動降價。所以這些所謂的優(yōu)勢體現(xiàn)到云最終的競爭力來說是成本,性價比要足夠高,大廠同樣需要朝著極致的性價比去發(fā)力。
在智算云里,能夠和大廠進行競爭,就需要形成規(guī)模化的生態(tài),生態(tài)化才是護城河,這背后可能是技術能力、行業(yè)拓展能力、生態(tài)融合的布局等因素,但體現(xiàn)到最終是“生態(tài)的規(guī)模”。朝極致的性價比發(fā)力,就有機會形成“成本-需求”雙向驅動效應,在這樣的算力基座上,客戶的需求更容易積聚并衍生出完整的人工智能生態(tài)。
另一方面,AI的發(fā)展離不開數(shù)據(jù),數(shù)據(jù)的本身具有粘性,這種粘性來自于兩個方面:一是數(shù)據(jù)遷移的成本,二是數(shù)據(jù)與上層工具鏈的綁定。如果工具鏈足夠好用,用戶就能在數(shù)據(jù)導入后快速完成模型微調(diào)并上線應用,運維成本也隨之降低。在這種情況下,用戶就沒有動力遷移,由此形成長期的依賴與粘性,進而帶來可持續(xù)的收入。
真正有價值的是圍繞核心業(yè)務形成的營收規(guī)模。更重要的是在這個領域里,依托規(guī)模效應形成生態(tài)化的領先。
雷峰網(wǎng):您覺得智算云平臺存在的價值是什么,好像只是一個對接算力供需雙方的角色?
尚明棟:智算云平臺的價值在于,可以解決傳統(tǒng)云計算在處理AI任務時面臨的算力調(diào)度低效、彈性不足等問題。智算云通過異構算力資源池化和智能調(diào)度技術,實現(xiàn)算力資源的動態(tài)分配與高效利用。與通用云廠商相比,九章云極的核心差異在于為AI計算負載量身定制的高性能操作系統(tǒng)(Alaya NeW)帶來的極致效率。Severless的架構,本質是將浪費的算力使用起來,從而降低成本。九章云極不是簡單的將資源池虛擬化,而是通過技術創(chuàng)新消除虛擬化損耗,實現(xiàn)任務級細粒度調(diào)度,并且深度集成AI工具鏈,最終目標是在按算量計費的模式下,讓客戶在單位有效算力(真正用于AI計算的FLOP)上獲得更優(yōu)的成本效益,并享受更匹配AI作業(yè)需求的資源調(diào)度靈活性。
這是對“云化”在AI場景下的深度演進,即按算時或按算量收費。無論是大模型訓練還是科學計算模擬,底層本質都是計算,即每秒能完成多少萬億次浮點運算。
云化是人工智能生態(tài)中專業(yè)分工的一個手段,專業(yè)分工是新質生產(chǎn)力的一種體現(xiàn),一個主體不能把整個產(chǎn)業(yè)鏈所有的業(yè)務環(huán)節(jié)都做了,既要做算力運營,又要做基礎模型和微調(diào)服務,還要負責最后一公里的應用開發(fā)。這其實是20年前信息化落地的時候,系統(tǒng)集成商的做法,其結果就是產(chǎn)業(yè)鏈上的參與者在重復造輪子,整體的質量和效率也比較低下,缺少標準化和高質量,云化是更尊重生態(tài)分工和生態(tài)合作的選擇。
雷峰網(wǎng):整個算力行業(yè)都非常關注推理需求爆發(fā)的時間節(jié)點,您對此有預判嗎?
尚明棟:從不同視角出發(fā),可能會得出不同的判斷。就我們觀察,今年上半年算力使用中,訓練算力占比超50%,但推理算力占比正快速上升,這一趨勢處于預期之中。因為模型的價值并不止于一次性訓練,而在于長期通過微調(diào)和推理被反復調(diào)用、不斷產(chǎn)生應用,這才是真正的價值體現(xiàn)。
隨著人工智能加速進入各行各業(yè),其應用基礎在持續(xù)擴張,并且目前很多垂直行業(yè),對大模型的依賴也日益加深。這意味著推理算力的深度消納將持續(xù)增加。隨著AI在行業(yè)內(nèi)的深度滲透和應用場景的爆發(fā)式增長,推理算力需求將在未來幾年迎來極其強勁的增長,其增速和規(guī)模潛力遠超訓練算力。尤其在中國市場,由于產(chǎn)業(yè)鏈完整、行業(yè)門類齊全、應用場景豐富,中國在全球范圍內(nèi)具備最強的推理應用落地基礎。
雷峰網(wǎng):那應對即將爆發(fā)的推理需求,產(chǎn)業(yè)鏈呈現(xiàn)出怎樣的趨勢,參與者們又需要如何適應變化?
尚明棟:未來幾年內(nèi)推理算力將迎來數(shù)量級的躍遷,產(chǎn)業(yè)和技術層面不可避免地會面臨挑戰(zhàn),有幾個趨勢值得關注:
第一,算力利用效率要做到持續(xù)提升,當前平均算力利用率不足30%,如何盡快提升至40%、50%甚至更高,這是九章云極重點投入的方向。
第二,當前,許多國產(chǎn)芯片廠商選擇優(yōu)先發(fā)力推理芯片市場。這確實帶來了異構計算的挑戰(zhàn),但同時也為算力生態(tài)的多元化發(fā)展提供了重要機遇。我們會在Alaya NeW操作系統(tǒng)中持續(xù)投入對國產(chǎn)芯片等異構算力資源的優(yōu)化調(diào)度和管理能力,以更好地支持多樣化的推理需求。
我們關注的異構計算和云邊端協(xié)同,具體表現(xiàn)為:訓練更多依賴云端,部分重度推理或彈性需求大的場景也會采用云化。而在遠端或野外等場景,則以端邊推理為主,訓練或微調(diào)僅作補充。原因在于訓練需要高度密集的算力和顯存,成本昂貴,而端邊更適合承擔推理及小規(guī)模微調(diào)。關鍵在于如何打通“最后一公里”的端邊云協(xié)同效率,這涉及到算力網(wǎng)絡的設計和優(yōu)化、異構框架適配以及多模態(tài)融合等問題。
從應用價值來看,目前大模型帶來最大提升的是代碼生成。在內(nèi)容生成領域,文本、圖片、視頻等能力已在設計等行業(yè)落地,但這僅僅是起點。可以明顯看到,人工智能技術的發(fā)展正從單一模態(tài)走向多模態(tài),未來還將擴展至機器人態(tài)勢感知、環(huán)境模擬以及與強化學習的結合。
多模態(tài)是必然趨勢,人類本身就是多模態(tài)的存在,通過語言、視覺、嗅覺、觸覺等感知世界,并在多維信息對齊后形成一致認知和統(tǒng)一決策。人工智能同樣會沿著這一路徑演進,它有“人類智能”這個老師,因此未來必然走向多模態(tài)的融合與感知。
專題介紹
2023年來,智算產(chǎn)業(yè)迎來爆發(fā)式增長。但兩年過去,國內(nèi)智算企業(yè)的生存狀態(tài)如何?在技術突破與場景落地中做了哪些新探索、又面臨什么新挑戰(zhàn)?智算行業(yè)的未來還有什么想象空間?本專題與一眾智算領域的先鋒從業(yè)者對話,回顧近年智算行業(yè)在技術與商業(yè)上的拓展實踐歷程,并展望未來發(fā)展方向。即便身處行業(yè)氣候更迭之際,從業(yè)者們憑借智慧與韌性、懷揣對智算未來的堅信,開辟多樣化發(fā)展路徑。對此專題感興趣的從業(yè)者,歡迎添加微信 YONGGANLL6662 共同參與討論。





京公網(wǎng)安備 11011402013531號