![]()
4637億美元,這個金額是美國“阿波羅登月計劃”累計投資的1.5倍,也是知名研究機構(gòu)Dell'Oro Group對2025年全球云計算投資規(guī)模的市場預測[1]。
從巴黎奧運會全球電視網(wǎng)絡(luò)直播,到《歌手2025》全鏈路4K超高清直播;從支持自動駕駛算法訓練,到支撐3A游戲流暢運行;從推動通義千問Qwen、Kimi等國產(chǎn)大模型迭代,到托起中國企業(yè)出海業(yè)務(wù)……云端的世界,AI正在開疆擴土。
2025年8月29日,阿里巴巴最新一季財報公布,阿里云收入同比增長26%,AI相關(guān)產(chǎn)品收入連續(xù)8個季度保持三位數(shù)增長,成為支撐阿里巴巴發(fā)展的“新的增長極”。截至當天美股收盤,阿里巴巴股價大漲近13%。
如果說20世紀是“電”的世紀,那么21世紀就是“計算”的世紀:21世紀第一個十年,算力開始成為生產(chǎn)力新的度量衡,經(jīng)典互聯(lián)網(wǎng)時代井噴的數(shù)據(jù)要通過計算挖掘價值,移動互聯(lián)網(wǎng)時代爆發(fā)的流量也只有在云端才能承接;而今,云計算又成為AIGC時代沖鋒的彈藥。
當“ChatGPT時刻”叩響AIGC的大門,云計算也從后臺浮出水面,迎來價值重估,從生態(tài)基座位躍升至戰(zhàn)略級資源,成為AIGC所有愿景落地的前提。
而這一切的起點,來源于21世紀初期那批瘋狂技術(shù)人“計算普惠”的樸素念頭。彼時,在海外,亞馬遜推出了彈性計算EC2;在國內(nèi),阿里云于2010年發(fā)布了彈性計算服務(wù)ECS。
十五年來,中國市場成為率先擁抱新技術(shù)的沃土,中國的企業(yè)和開發(fā)者也在不斷用云計算改進業(yè)務(wù)、提升效率,如今,中國技術(shù)也正引領(lǐng)著第三次云計算“彈性”革命。
鑿山鋪路十五年,云計算是一條隱秘而光輝的暗線,它陪伴和支撐中國科技產(chǎn)業(yè)從傳統(tǒng)互聯(lián)網(wǎng)走入移動互聯(lián)網(wǎng),現(xiàn)在又大步邁向AIGC的新技術(shù)時代。
互聯(lián)網(wǎng)風起,讓計算上云
一個不爭的事實是,當前,中美兩國最強的云計算公司,都脫胎于電商。這是為什么?
要回答這個問題,就要回到15年前。2010年的雙11,淘寶單日交易額達到19.5億元,平均每分鐘賣出4.8萬件商品,而承擔交易重任的支付寶卻經(jīng)歷了“驚魂4秒”——距離系統(tǒng)崩潰只差4秒[2]。
這充分說明了彼時計算與需求之間的不平衡,一面是井噴的數(shù)據(jù),另一面是不足的算力。
更早的2008年,中國電商市場規(guī)模突破3萬億元,網(wǎng)購用戶在網(wǎng)民中占比近50%(1.2億/2.53億)[3],海量的交易讓算力捉襟見肘。對當時的行業(yè)巨頭而言,不斷買服務(wù)器最省事,但不省錢,而且還得聽別人說了算。
彼時,一臺IBM小型服務(wù)器至少幾十萬元,商業(yè)數(shù)據(jù)庫、存儲設(shè)備、軟硬件維護成本上千萬元。阿里內(nèi)部曾預測,擴大服務(wù)器規(guī)模的投入,很可能會在未來“拖垮阿里”。
2009年,阿里云成立,首個KPI就是廣為人知的“飛天”,將傳統(tǒng)IT架構(gòu)轉(zhuǎn)向云計算架構(gòu)。云計算擺脫服務(wù)器的肉體凡胎,算力集中上云并按需分配,在規(guī)模效應(yīng)下,提升了算力的使用效率、降低了算力成本,打破算力增長的天花板。
在行業(yè)對這套云計算新系統(tǒng)仍持觀望態(tài)度時,阿里率先開展實踐。2012年雙11,191億元的單日交易額中,20%的訂單在云上實現(xiàn),一年后,這一數(shù)字提升到了80%。
幾乎與“飛天”同時啟動的,還有另一個不太為人知的神秘項目。2009年秋天,阿里集團內(nèi)部技術(shù)骨干集結(jié),在西湖邊上的一家茶館,定下了名為“后羿”的彈性計算項目,初衷是希望將“飛天”強大的云計算能力,提供給更多中小企業(yè)的外部客戶。
到年底,彈性計算ECS beta版本發(fā)布,此時,阿里剛剛收購的專注于域名領(lǐng)域的中國萬網(wǎng),意外地成為了彈性計算的第一批種子客戶。
作為當時的業(yè)內(nèi)頭部,中國萬網(wǎng)囊括了最前沿的互聯(lián)網(wǎng)和電商公司客戶,還有大批中小站長,他們身處行業(yè)中心,更早感受到流量暴增,對計算資源不足也深有體會,他們希望找到性價比更高的計算資源。2009年底,中國萬網(wǎng)提出,希望對外售賣ECS。
雙方一拍即合。2010年5月,名為AH-Cloud的合作項目正式發(fā)布,阿里云彈性計算由此進入更多互聯(lián)網(wǎng)企業(yè)的底層架構(gòu),將云計算的火種撒向各行各業(yè)。從藝術(shù)創(chuàng)作到互聯(lián)網(wǎng)金融,從奧運會轉(zhuǎn)播到氣象預測,算力搭乘著各類終端連接而成的網(wǎng)絡(luò),隨著數(shù)據(jù)的遷徙滲透進人們的工作和生活。
![]()
《昆塔:盒子總動員》利用云計算渲染呈現(xiàn)的3D畫面
2013年,阿里最后一臺IBM小型機在支付寶下線,上云也成為中國企業(yè)的共識,各類第三方云計算企業(yè)誕生,友商巨頭扎堆入局。
中國云計算正發(fā)軔,亞馬遜AWS就在2013年底強勢來襲。戰(zhàn)爭打響,阿里云選擇正面硬剛:通過“神龍架構(gòu)”等自研技術(shù)創(chuàng)新,持續(xù)降低云計算成本,同時結(jié)合市場需求的充分挖掘和理解,用產(chǎn)品說服客戶,通過技術(shù)創(chuàng)新實現(xiàn)成本優(yōu)勢。
移動流量爆發(fā),新架構(gòu)革命
2010年代后半段,移動互聯(lián)網(wǎng)爆發(fā),2016年雙11,天貓單日交易額突破1000億元,移動端交易占比高達82.42%[5]。
網(wǎng)購不限制于臺式機前,而是隨時隨地發(fā)生。與此同時,社交、短視頻、直播等手機應(yīng)用野蠻生長,拼接成移動互聯(lián)網(wǎng)的另一個側(cè)面。
微博熱搜取代報紙頭條成了輿論場的重心。數(shù)億用戶同時互動、搜索、發(fā)布內(nèi)容,瞬間激增的流量不僅需要強大算力支撐,更考驗資源調(diào)度的靈活性。這一趨勢使得長期困擾云計算發(fā)展的“虛擬化損耗”問題,從技術(shù)隱疾演變?yōu)楸仨氁黄频年P(guān)鍵性能瓶頸。
作為云計算的核心技術(shù),“虛擬化”指的是通過軟件將服務(wù)器的各類計算資源抽取出來,分類集中到各個資源池,再根據(jù)需求統(tǒng)一調(diào)配、打包成“虛擬機”。
實現(xiàn)虛擬化,本身需要消耗算力等資源,比如一臺32核的物理服務(wù)器,有12核用來做虛擬化,帶來接近40%的虛擬化損耗。隨著云上規(guī)模的不斷擴大,虛擬化損耗帶來的資源浪費愈發(fā)凸顯。
2016年的雙11復盤會,彈性計算團隊收到了“最后通牒”——必須將“虛擬化損耗”降到接近0%,阿里云由此開始了又一次架構(gòu)革命。
破局關(guān)鍵在于軟硬件協(xié)同。
2017年,阿里云發(fā)布自研的神龍架構(gòu)。通過定制虛擬化芯片、專用主板與MOC卡,結(jié)合自研軟件,實現(xiàn)接近零損耗的高性能虛擬化,比亞馬遜的專用芯片Amazon Nitro的推出時間還早了1個月。
![]()
神龍自研硬件體系
在向“神龍”進化的過程中,彈性計算的另一個“分支”——容器技術(shù),開始在阿里內(nèi)部生長。
相較于傳統(tǒng)虛擬化技術(shù),容器技術(shù)天然迎合移動互聯(lián)網(wǎng)的高并發(fā)特性,它根據(jù)進程分配算力的機制更靈活,啟動速度從分鐘級提高到了秒級,能夠應(yīng)對突發(fā)、瞬時、海量的用戶請求,且支持跨平臺遷移。
2019年,第二代神龍架構(gòu)(MOC1.5)規(guī)模化,開始基于一個軟硬件體系,統(tǒng)一支持三種算力類型(裸金屬服務(wù)器+虛擬機服務(wù)+容器),容器服務(wù)正式加入了彈性計算“全家桶”,更大程度地覆蓋了不同層級的算力調(diào)配需求,“朋友圈”進一步擴大。
截至目前,神龍架構(gòu)已迭代至第五代,阿里云還在2022年率先推出了云基礎(chǔ)設(shè)施處理器CIPU。
在這過程中,阿里云也與最頂尖的產(chǎn)業(yè)公司深入合作,不斷刷新云計算的性能上限。比如,阿里云與AMD在2016年達成戰(zhàn)略合作,陸續(xù)推出了基于AMD不同代際處理器平臺的ECS實例,成為了諸多頂流app的云原生平臺底座,在游戲、工業(yè)物聯(lián)網(wǎng)等領(lǐng)域滿足著持續(xù)增長的算力需求。
小紅書上阿里云就是典型案例。作為以內(nèi)容分享和社交互動為核心的平臺,小紅書需要支持海量用戶同時在線,在大數(shù)據(jù)處理、實時搜索與智能推薦等高負載場景下實現(xiàn)快速響應(yīng)。
為應(yīng)對這一挑戰(zhàn),小紅書基于阿里云自研的CIPU架構(gòu)的ECS AMD實例進行了深度技術(shù)升級,將內(nèi)存帶寬提升125%,峰值達到350GB/s,大幅提升了特定場景的性能,還將集群資源利用率提升至40%,從容承接了年初那波“TikTok難民”的涌入浪潮。
小紅書、AMD與阿里云三方探索出“云基座+深度定制”的全新用云模式,也成為業(yè)內(nèi)上云新范式。
2025年8月14日,阿里云更是一口氣發(fā)布三款企業(yè)級實例——u2a、g9a、g9ae,均搭配AMD最新第五代EPYC處理器Turin,全新的“Zen 5”核心架構(gòu)相較上一代帶來17%的IPC(每周期指令數(shù))提升,以及全鏈路AVX-512(主要用于加速 AI 計算和高性能計算任務(wù))能力的支持,AI和高性能計算(HPC)的IPC提升37%。
![]()
AMD第五代EPYC處理器Turin
與AMD長達十年的合作見證了阿里云彈性計算二次革命。在移走了“虛擬化損耗”的大山、滿足移動互聯(lián)網(wǎng)時代的算力需求后,數(shù)據(jù)開始以更高的精度和更龐大的規(guī)模展示其價值。
AIGC奇點的快步到來再次改寫了計算的范式,也讓云計算的長跑進入新一輪的馬拉松。
AIGC時代,做創(chuàng)新的承重墻
2021年前后,AIGC以另一種維度展現(xiàn)了數(shù)據(jù)的價值,揭示了其徹底顛覆人們生產(chǎn)生活的潛力。
這些愿景被寄托于算力之上,云計算規(guī)模成為劃定AIGC發(fā)展進程的標尺,如何應(yīng)對前所未有的算力需求暴漲,也成為云計算廠商的全新考題。
當時,小鵬汽車找到阿里云,希望提供“超算”支持其自動駕駛訓練,以解決自動駕駛算法訓練中海量視頻處理量超載的問題。
“超算”是個“小眾且頂奢”的概念。與傳統(tǒng)云服務(wù)器注重資源共享、適用于通用計算場景相比,“超算”強調(diào)極致的計算能力和并行處理能力,常用來解決需要大量計算資源的科學研究等問題。
但代價極度昂貴。特斯拉當年的Dojo超算集群運行在1萬顆GPU上,建造成本3億美元起步,對于任何企業(yè)都是無法輕易消化的支出,而Dojo最后的無疾而終更證明了高投入背后的高風險。
作為國內(nèi)自動駕駛的領(lǐng)跑者之一,小鵬是最早決定將超算應(yīng)用于自動駕駛訓練的新勢力之一。但放眼全球,能夠滿足需求的超算集群屈指可數(shù)。幸運的是,阿里云是為數(shù)不多具備該能力的企業(yè)之一。
2022年8月,阿里云宣布與小鵬汽車合建烏蘭察布智算中心“扶搖”,飛天智算平臺與智能計算靈駿同時出道,以15 EFLOPS的算力成為當時全球最大規(guī)模智算平臺。
而今復盤,“靈駿”的公開時點相當微妙——它甚至比ChatGPT發(fā)布還早三個月。
糧草先行的“靈駿”,也成為后來國產(chǎn)大模型奮起直追的底氣。巔峰時期,國內(nèi)80%以上的大模型都是在“靈駿”上訓練的,還承擔了包括通義千問Qwen、Kimi在內(nèi)的top級國產(chǎn)大模型的日常訓練和推理。
AIGC給云計算帶來新的需求,也進一步提高了后來者入局的門檻,大模型上云的背后,是對彈性更為極致的考驗:
一方面要更能“伸”,以持續(xù)擴容的算力應(yīng)對大規(guī)模任務(wù)和參數(shù)規(guī)模指數(shù)級增長的模型訓練。
這個過程并非簡單的算卡堆疊,其中涉及到并行計算同步性等諸多“技術(shù)陷阱”,業(yè)內(nèi)尚無通用之法,只能倒逼云計算廠商從芯片到網(wǎng)絡(luò)架構(gòu)、系統(tǒng)軟件多個維度自研。但有能力做到的廠商屈指可數(shù)。
另一方面要更能“縮”,即對不同的計算資源進行顆粒度更高的分配,避免資源的浪費,同時能夠更加快速、靈活地拉起進程,以應(yīng)對諸如對話、智能駕駛等需要及時反饋的需求。
比如大語言模型日常需要處理文字、圖像、音頻等各類數(shù)據(jù),需要足夠豐富的計算資源以供調(diào)配。同時,用戶對不同任務(wù)的體驗標尺不同,比如“詢問天氣”對延遲的容忍度最低,文獻歸納對精確度要求最高,需要更科學的資源調(diào)度策略。
這便是對技術(shù)積累厚度實打?qū)嵉目简灐0⒗镌茝摹帮w天”到“神龍”,從虛擬化技術(shù)到裸金屬技術(shù)、容器技術(shù),積累的“工具箱”可謂應(yīng)有盡有,隨取隨用。
根據(jù)Gartner發(fā)布的2025年度全球《容器管理魔力象限》報告,阿里云成為亞太地區(qū)唯一一家連續(xù)三年進入“領(lǐng)導者”象限的云容器服務(wù)供應(yīng)商。 在其關(guān)鍵能力評估報告中阿里云云端部署(Cloud Deployment)與運維能力(IT Operations)兩項評分更是位列第一。
在技術(shù)硬實力的基礎(chǔ)上,對用戶需求的洞察力,則是當前擺在云計算廠商面前更棘手的問題。
在阿里云,產(chǎn)品經(jīng)理要隨時與客戶研發(fā)團隊保持密切溝通,不僅要參與到客戶模型的算子優(yōu)化,在交付后還要頻繁回訪,跟蹤使用效率,排查故障、優(yōu)化迭代。
百花齊放的模型帶來了高度定制化的需求,決定了云計算供應(yīng)商需要更早地參與到客戶的研發(fā)流程,而創(chuàng)新的不確定性,也需要產(chǎn)業(yè)鏈原本獨立的各個環(huán)節(jié)重新擰成一股繩。
云計算作為基礎(chǔ)設(shè)施,貫穿模型產(chǎn)品的整個生命周期,意味著廠商需要始終走在下游需求的前面,以保證有足夠大的算力和足夠豐富的工具箱承接住更多的“ChatGPT時刻”。
![]()
阿里云AI Infra
2024年,彈性計算產(chǎn)品線迎來了再次升級,集通用計算、容器計算和加速計算三大產(chǎn)品線于一體,進一步釋放了解決方案的靈活性和適應(yīng)性。
這一年,阿里云用戶范圍擴大至全球29個地域、89個可用區(qū),在各行各業(yè)密集落地。Gartner報告顯示,阿里云在亞太地區(qū)IaaS市場份額繼續(xù)排名第一。
在AI需求的強勁驅(qū)動下,阿里云彈性計算的服務(wù)器集群正以前所未有的速度迅猛擴張,以機械之身托舉起人類歷經(jīng)數(shù)個世紀對人工智能的全部憧憬與想象。
尾聲
2013年初,一封來自秦嶺巴山的感謝信,悄然落在阿里云辦公室的案頭。
寫信人是一位鐵路巡線工,常年在幽深隧道中徒步巡查。過去,他靠雙腳傳遞險情;如今,他用手機拍照上傳,信息幾秒內(nèi)就能送達調(diào)度中心。改變這一切的,不是驚天動地的技術(shù)突破,而是一次安靜的算力遷移——從機房到云端,從企業(yè)級系統(tǒng)到底層個體的工作流。
這個故事沒有出現(xiàn)在財報里,也未被寫進發(fā)布會的PPT,但它成了阿里云彈性計算十五年歷程中最真實的注腳:真正的技術(shù)價值,往往藏在那些看不見的地方。
十五年來,從支撐雙11流量洪峰的“飛天”系統(tǒng),到打破虛擬化損耗瓶頸的“神龍架構(gòu)”;從率先推出CIPU,到構(gòu)建大規(guī)模智算集群“靈駿”——阿里云始終在做一件事:把復雜的底層技術(shù)變成簡單可用的算力服務(wù)。
今天,算力正在從“資源”演變?yōu)椤澳芰Α保鴱椥裕膊辉僦皇琴Y源的伸縮,更是對千行百業(yè)復雜需求的精準適配。這條路依然漫長,挑戰(zhàn)遠未終結(jié)。
但歷史已經(jīng)證明:那些在無人處“鑿山鋪路”的人,終會被時代看見。而那些默默支撐變革的系統(tǒng),終將成為新世界的底色。
![]()
參考資料
[1]AI to lift cloud investment to $460bn in 2025, more than Apollo program, Nikkei Asia
[2]“雙11”幕后:支付寶曾差4秒就崩潰,今年只需十幾人待命,澎湃新聞
[3]《中國電子商務(wù)報告(2008-2009)》,商務(wù)部
[4]看淘寶這十年:改變國人消費觀念印證商業(yè)變遷,人民網(wǎng)
[5]2016天貓雙11正式進入“千億時代” 移動端占比82.42%,中國經(jīng)濟網(wǎng)
[6]《在線》,王堅
[7]爆發(fā)了,阿里的云,華商韜略
作者:何律衡
編輯:李墨天
責任編輯:何律衡
封面圖片來自ShotDeck





京公網(wǎng)安備 11011402013531號