芝加哥商業交易所(CME)的一次交易中斷,讓數據中心的散熱問題進入大眾的視野。
11月27日,全球最大的期貨交易所運營商CME集團的交易平臺遭遇數小時的中斷,橫跨股票、外匯、債券和大宗商品的數萬億美元合約受到影響。
此次事件的直接原因是其位于伊利諾伊州奧羅拉的數據中心冷卻系統發生故障。該數據中心由私募股權公司KKR & Co.和Global Infrastructure Partners旗下的運營商CyrusOne所有。
CyrusOne方面表示,其設施中的一個冷水機組發生故障,影響了多個冷卻單元,這一“簡單”的物理故障引發全球市場動蕩。為避免設備過熱,冷卻系統的資本支出通常最高可占到數據中心項目總投資的15%。
這起事件不僅是一次孤立的技術故障。在AI浪潮一度將英偉達推上全球市值最高公司寶座的背景下,如今數據中心的散熱問題愈發突出。
熱量從何而來?
數據中心是裝滿了服務器的建筑,這些服務器由協同工作的芯片堆棧組成,用于處理和存儲數據。
處理能力通常被稱為“算力”(compute),這已成為AI公司訓練模型所必需的關鍵商品。
數據中心通過向其他公司出租算力來盈利,這意味著運營商有動力在同一空間內盡可能多地裝入服務器以實現容量最大化。
所有這些服務器都需要消耗大量電力。
由于其高耗能和全天候運行的特性,一個數據中心每平方英尺的能耗是普通辦公樓的50倍之多。
它們消耗的大部分能量最終都以廢熱的形式散發。這就像個人筆記本電腦或手機在處理復雜任務時會發燙一樣。
冷卻技術與權衡
傳統上,服務器采用冷空氣進行冷卻,其工作原理類似于家用空調。
風扇將冷空氣吹向服務器,然后將熱空氣從機房中排出。然而,隨著用于人工智能的數據中心產生更多熱量,自2022年左右開始,液體冷卻系統變得越來越普遍。
液體冷卻的方式多種多樣,例如將冷液體通過管道輸送至緊貼芯片的散熱板,或將整個服務器浸入裝滿冷卻液的容器中。
還有些系統使用低沸點液體,當其接觸高溫芯片時會吸收熱量并蒸發,隨后再冷凝成液體循環使用。
相較于空氣,液體在單位體積內能攜帶更多熱能,因此效率更高。但這些系統安裝復雜且成本昂貴,一旦出現問題也十分棘手,沒有人希望昂貴的芯片被液體浸泡。
無論是使用空氣還是液體,熱量從芯片轉移后,最終會傳遞到一個冷卻水循環系統,再由冷卻塔或工業冷水機組將熱量釋放到外部環境中。
這正是數據中心消耗大量水資源的原因,并已引發對其在缺水地區加劇水資源壓力的擔憂。
過熱的代價
數據中心過熱可能導致數據丟失、損壞服務器內昂貴的芯片,并給客戶造成服務中斷。
后果與近期多家數字基礎設施提供商因技術故障引發的服務中斷類似。
例如,網絡安全公司Cloudflare Inc.在去年11月發生的重大網絡中斷,導致從社交平臺X到ChatGPT等多個網站無法訪問。亞馬遜云服務、CrowdStrike和微軟也曾出現過類似問題。
通常,數據中心會在冗余方面進行大量投資,包括配置備用發電機、額外的冷卻單元,甚至復制整個設施,以最大限度地降低中斷可能性。
但隨著系統變得日益復雜,盡管有冗余措施,中斷可能仍難以避免。
CME事件復盤
CME的交易平臺位于芝加哥郊外奧羅拉市的一個園區內,該園區屬于數據中心運營商CyrusOne。
據CyrusOne稱,11月27日,其奧羅拉設施中的一個冷水機組發生故障,波及多個冷卻單元,最終導致了此次交易中斷。
事件發生后,CyrusOne表示,在努力恢復全部制冷能力的同時,已部署了臨時冷卻設備以補充永久性系統。
根據該公司官網信息,其奧羅拉園區擁有“先進的冷卻技術”,使用風冷式冷水機組,并在氣溫低于30華氏度(約-1攝氏度)時利用自然冷空氣或水進行冷卻。
據天氣預報的數據,在11月28日上午10:40,奧羅拉當地的氣溫約為28華氏度。
值得注意的是,CyrusOne的網站還聲稱其奧羅拉設施擁有額外的冷卻單元,以應對風冷式冷水機組的故障。
目前尚不清楚該冗余系統在本次事件中是否起到了預期的作用。





京公網安備 11011402013531號