![]()
新智元報道
編輯:定慧
一次「常規更新」搞崩半個地球,Cloudflare CTO緊急謝罪:我們搞砸了!Cloudflare自殺式Bug引發連鎖反應,波及全球20%網站。當數百萬爬蟲撐爆了防御名單,Cloudflare的崩潰揭示了AI時代最深的基建隱憂,人類還能跟得上AI進化的腳本嗎?
果然這個世界建立在脆弱性之上。
昨天,2025年11月18日,全球AI數字生態系統經歷了一次近乎心跳驟停般的休克。
Cloudflare崩潰了!
然后全球五分之一的互聯網服務幾乎全部宕機,尤其是,AI巨頭集體斷網!ChatGPT、X全線崩盤!
當你還在拿著這個圖調侃的時候。。。
![]()
殊不知,真正的情況是,Cloudflare現在互聯網真正的底座。
![]()
馬斯克在之前亞馬遜宕機時還調侃,這次終于是風水輪流轉!
![]()
只不過,老馬沒想到的是,這次CF的影響直接讓自己家服務也宕機了~
![]()
![]()
Cloudflare的CTO趕緊發了個申明:是我們的錯誤,立正挨打。
下面會詳細介紹這次引發故障的原因,簡直就是草臺班子級別,只能說人類社會用規則來和計算機打交道還是太脆弱了!
![]()
先說說這次事故的影響。
這起事故影響范圍之廣前所未見,被稱為「半個互聯網的停擺」毫不夸張——約20%的網站依賴Cloudflare提供服務。
Cloudflare還有個稱號叫做賽博活佛,特別是在極客群體中,很多服務,如果個人用都是免費的。
這里作為對比,必須夸一下咱們國內的基建服務了,不管是微信、B站、視頻網站,你很少碰到如此級別大規模的故障。(ToB的服務不細講,這個離普通消費者也很遠)
故障高峰時,網站故障追蹤平臺Downdetector收到了累計逾210萬條報錯反饋,成為近年來最嚴重的基礎設施級中斷之一。
包括亞馬遜、Spotify、Zoom、Uber等知名服務也受到波及(部分功能異常或加載緩慢)。
Cloudflare作為支撐全球海量流量的「隱形基建」,一次失誤便牽一發而動全身,令股價盤中一度重挫約7%。
更令人深思的是,一些本用于監測網絡故障的工具(如Downdetector)因本身也使用Cloudflare,甚至在事故中一同癱瘓—整個互聯網生態對單一底層的依賴程度,由此可見一斑。
更「細思極恐」的是,當Cloudflare的工程師想要打開ChatGPT來修復故障時,AI也宕機了~
![]()
很多網友都形容那宕機的三個小時,如此「黑暗」,就像回到了遠古時期。
![]()
Cloudflare這次導致全球斷網的技術故障,其實是一次典型的「好心辦壞事」。
![]()
網友們制作的惡搞圖
簡單來說,就是工程師試圖升級安保系統的權限,卻意外讓負責安檢的軟件「嚇暈」了。
(如果是AI來操作,以硅基同步的能力和運算的能力,大概率不會出這種岔子,這也就是碳基人類寫下的固定規則才能導致了,還是人類規則太脆弱了。這里讓我聯想到馬斯克為啥一直堅持FSD使用純視覺,就是人類你不可能遍歷所有駕駛過程,就像這次CF的故障,沒有工程師能預先為這種場景寫下規則)
根據Cloudflare官方博客的復盤,事情是這樣發生的:
![]()
起因是系統「大掃除」。
工程師原本在進行一項常規的維護工作,目的是為了提高安全性。他們調整了數據庫的權限,想把原本公用的「系統賬號」改成責任更明確的「個人賬號」。
然后這個看似無足輕重的操作,觸動了隱藏在系統中「舊傷」。
系統里潛伏著一段很老的代碼,它負責生成一份用來識別網絡機器人的「特征名單」(Feature File)。
這段代碼以前只在一個默認的數據庫里找名單,所以沒問題。
但這次權限升級后,它突然能看到另一個備份數據庫了。
由于代碼里沒寫清楚「只看哪一個」,它傻乎乎地把兩邊的名單都抓取了過來,名單被「膨脹」了。
這導致那份原本精簡的「特征名單」瞬間膨脹,內容重復了一倍。
結果就是,保安「罷工」。
Cloudflare負責在全球各地轉發流量的核心軟件有一個硬性規定:為了保證速度,名單長度不能超過200條。
當這份意外「發福」的名單被推送到全球服務器時,軟件發現名單太長讀不完,直接觸發了內存溢出保護機制(Panic),也就是徹底崩潰。
為了安全起見,它切斷了所有連接。
簡單說就是,本來機器數據庫權限不夠,調整后,它突然權限高了點,然后也沒有為這個情況提前寫下判斷代碼。
打個再通俗的比方(可能不是那么準確)。
這就好比大樓物業給保安發了一副新眼鏡(升級權限),本意是讓他看得更清楚。
結果因為新眼鏡度數沒調好,保安看手里的「訪客黑名單」時出現了重影,原本100人的名單在他眼里變成了200人。
保安的腦容量(系統限制)記不住這么多人,瞬間由于信息過載而「死機」暈倒,導致大樓門禁系統自動鎖死,把所有訪客(包括X和ChatGPT的用戶)都關在了門外。
不過目前問題已經修復了(其實不是啥大問題,就是邏輯改改就行)。
![]()
如果不只是把這次事故看作一個單純的技術故障,而是放在2025年「AI瘋狂吞噬數據」的背景下去看,你會發現這充滿了黑色的諷刺意味。
AI殺死AI
導致這次崩潰的核心組件是「機器人管理系統(Bot Management)」。
在2025年,這個系統的主要假想敵是誰?正是AI爬蟲。
隨著大模型訓練對數據的極度渴求,互聯網上充斥著無數自動化的AI抓取程序。
Cloudflare作為「守門人」,必須不斷升級其算法來區分「真人」和「AI機器人」。
特征文件(Feature File),對就是報告中提到的那個導致崩潰的「特征文件」,實際上就是機器學習模型用來判斷流量性質的「參數集」。
每一個「特征(Feature)」都是一個判斷維度(比如鼠標移動軌跡、點擊頻率、IP行為模式等)。
為了應對越來越狡猾的AI機器人,Cloudflare的防御系統變得越來越復雜,需要調用的「特征」越來越多。
這次故障的直接原因就是數據庫錯誤地吐出了過多的特征數據,導致防御系統的「大腦」過載。
這不是一次普通的軟件崩潰,這是「數字免疫系統」在試圖升級以對抗AI病毒時,因自身的排異反應而休克。
這次事件最荒誕的地方在于受害者名單。
OpenAI、xAI、Perplexity:這些是全球最大的AI公司,它們同時扮演了兩個角色:
它們的爬蟲在全網搜刮數據,迫使Cloudflare建立更復雜的防御系統(即這次崩潰的源頭)。
它們自己也極其依賴Cloudflare來防止被別人攻擊或濫用。
結果呢?
Cloudflare為了防御AI抓取行為而維護的系統,因為一次配置錯誤,反過來「殺死了」最頂級的AI服務商。
這就像是為了防止野獸入侵而把城墻修得太高太重,結果城墻倒塌,把住在城里的國王(AI巨頭)給壓垮了。
這揭示了AI時代基礎設施的內卷化困境——為了對抗技術的濫用,我們不得不把基礎設施造得越來越復雜、越來越脆弱。
你問這和AI有什么關系,或許這就是AI時代的「技術債」。
這里有一個更深層的隱喻:「特征膨脹」。
在傳統的軟件工程中,邏輯通常是線性的。
但在涉及AI和機器學習的防御體系中,系統依賴于成百上千個「特征」來進行概率判斷。
這次故障是因為特征數量突破了200個的硬編碼限制而引發的。
這暴露了一個問題:我們正在構建一種人類難以完全掌控的「黑箱基建」。
為了攔截智能程度極高的AI機器人,防御規則不能再是簡單的黑白名單,而必須是動態的、基于行為分析的復雜模型。
這種復雜度的指數級上升,意味著未來類似的「不可預測的崩潰」會越來越多。
我們正在用復雜的AI(防御)去對抗復雜的AI(進攻),而夾在中間的,是脆弱的物理互聯網。
這次宕機不僅是一個配置錯誤,它是人類互聯網為了適應AI寄生而進行的一次痛苦痙攣。
它是「矛」(AI抓取)與「盾」(AI防御)在無限升級的軍備競賽中,把戰場(互聯網基礎設施)給撐爆了。
![]()
但是,這波也有用AI來打敗AI的正面例子。
比如,吳恩達團隊就在Cloudflare宕機的過程中,用AI快速實現了Cloudflare功能的克隆版本,成為最早一批恢復運行的網站。
屬實是用魔法打敗魔法了!
![]()
最后再放一個彩蛋。
彩蛋:元兇被原地解雇
X上這位名為Rob Hallam的哥們發了個帖子。
說他正是那位搞崩全球互聯網的工程師(可能是之一)。
自稱是,能用單個正則表達式讓20%互聯網癱瘓,哈哈哈
![]()
![]()
參考資料:
https://blog.cloudflare.com/18-november-2025-outage/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!





京公網安備 11011402013531號