(Edwin Chen:4年做到10億美元的 AI 數據公司)
這兩年,大部分 AI 創業故事都從一輪又一輪融資講起。
Surge AI 反著來。
創立四年,不到百人團隊,從未融資,2024 年營收突破 10 億美元,從第一天起就盈利。
但比商業成績更重要的,是他們在做的事。
當 OpenAI、Anthropic、Google 在拼參數、爭排名時,Surge 在做一件被行業忽視但極其關鍵的事:在模型還沒成型時,就決定它該成為什么樣的模型。
你看到的是算力大戰,看不到的是背后那套決定模型如何思考、如何表達、如何做決策的人類系統。
2025 年 12 月 7 日,在一場播客中,創始人 Edwin Chen 說:
我們不是在教模型如何對話,而是在教它什么是對、什么是好。
這件事看似簡單,卻極其決定 AI 的上限。
當別人還在堆算力時,Edwin 已經在重新定義標準。這家被嚴重低估的公司,正在影響主流大模型的行為邊界。
這是一個關于品味、判斷力與 AI 未來的故事。
(昨天我們寫過 Anthropic 哲學家 Amanda Askell 的那堂「提示詞課」,講的是前端用戶怎么跟模型說話。這一篇換到另一端:Surge AI 在訓練后端,決定模型學什么、怎么學。提示詞和數據,其實是同一套模型的一體兩面:前者決定你能調動多少能力,后者決定它原本擁有什么能力)
第一節|不融資、不刷榜、不造勢,Surge靠什么贏?
如果只看表面,Surge AI 完全不像一家10億美元公司。
沒有媒體報道,沒有病毒式傳播,沒有頂級 VC 站臺背書。官網首頁樸素得像個科研項目。
但就是這樣一家低調到極致的公司,卻成為 OpenAI、Anthropic、meta 等實驗室的核心數據合作方,產品滲透到大模型訓練的關鍵環節。更重要的是:他們從第一天起就盈利,從未融過一分錢。
Edwin Chen說:我們從不打算玩硅谷那一套。
他的邏輯非常清晰:
不融資,因為融資會引入錯誤的目標函數,你開始為投資人而不是為產品優化;
不擴張,因為優秀人才在少而精的團隊里反而更能專注,不受內耗干擾;
不刷榜,因為最好的客戶是那些真正理解數據價值的實驗室,而不是沖著新聞來的甲方。
Surge 從一開始就不為估值而活,而是為產品而活。他們選擇的是一條極難的路徑:靠口碑打入實驗室核心圈,靠真實效果贏得續約。
這意味著他們必須打造10倍好的產品,而不是差不多就行的交付。
在傳統 AI 數據公司靠堆人力、接訂單、外包打標簽驅動時,Surge徹底反其道而行:
自建訓練系統,精細追蹤每一位標注者的數千個行為信號;
用機器學習反向分析,判斷誰擅長寫詩、誰擅長技術文檔;
不止提供數據,還提供評估標準、驗證器和微型 RL 訓練工具,直接參與客戶的模型調優。
這套體系讓他們服務的不是邊緣創業團隊,而是行業最頂尖的前沿實驗室。而且,憑借真實的效果提升,他們建立了極高的客戶信任。
Edwin說:我們成功的唯一方式,是讓產品好到客戶愿意主動推薦。
在這個充滿增長技巧和融資話術的AI創業浪潮中,Surge是個例外。他們用一個近乎反商業的姿態,驗證了高質量×小團隊×深耕一事的極致杠桿效應。
成功不一定要靠融資。真正理解模型需要什么,也能走到最后。
第二節|AI的地基不是算力,是數據質量
Surge AI 做的不是標注貓狗圖像,也不是讓模型輸出用戶喜歡的回復,而是教模型如何判斷世界上的好與壞。
Edwin Chen 舉了個例子:
“我們不是在檢查這首詩有沒有提到月亮、有沒有八行,我們在問,這首詩有沒有打動你?”
換句話說,Surge 的數據標準不是機械的指標,而是能否打動人。
要做到這一點,Surge 建立了一套完全不同的系統。每位標注者的輸出不只看是否完成任務,更看是否展現專業直覺、能否引發深度反饋。數據不是靜態結果,而是經過多輪模型驗證后的動態優選值。
他們真正在做的不是打標簽,而是訓練判斷力。
在這個體系下,Surge 更像是模型的品格塑造者。
什么樣的行為是合格的?
什么樣的偏差需要被消除?
什么樣的表達能代表真實的人類智慧?
這些看似模糊的品味問題,最終都被系統化成可評估、可追蹤的指標。
而這,正是大多數數據公司做不到的核心壁壘。普通數據供應商只能標注你讓它判斷的東西,Surge 能定義你該判斷什么才對。
這直接影響模型的走向。
你希望 AI 成為盡職的助手,還是能挑戰你的同事?不同的判斷標準,塑造出完全不同的模型性格。
這才是 AI 工廠里最容易被忽視、卻最難被替代的關鍵環節。
算力決定速度,數據決定方向。Surge的系統,不是給模型鋪路,而是先問清楚:你到底想去哪?
第三節|訓練AI不是教對話,是讓它學會做事
大多數人以為,訓練AI就是給它喂數據、寫prompt、評輸出。但真正進入模型能力的核心階段,這種單步訓練方法就會失效。
讓 AI 寫再多郵件,也訓練不出能修復生產系統的智能體。寫郵件是單一任務,修系統需要連續決策。
Edwin Chen 倡導的 RL 環境訓練,提供了一個極具現實性的突破思路:不是在對話框里調教模型怎么回答,而是把它丟進一個真實世界,看它如何解決問題、規劃路徑、完成任務。
舉個例子:
模型的任務是修復宕機的網站。它要能讀懂Jira工單、理解服務器日志、檢查PR、閱讀代碼注釋,甚至發送Slack消息、寫復盤文檔。而不是一句“請幫我寫一封道歉郵件”就結束了。
這不是 prompt 工程,這是智能體級別的能力訓練。
在Surge 的系統中,他們設計了大量模擬現實場景的RL環境。
例如:
企業系統被攻擊,模型需完成威脅排查到修復部署的全流程;
財務報表出現異常,模型需理解業務邏輯、核對數據、生成分析報告;
代碼無法上線,模型需定位問題、評估風險、給出方案。
這是從工具調用到任務協作的躍遷。
Edwin指出:即便模型最后答對了,如果它中途瞎試了50次,我們也不會認為這是好行為。
這就是 RL 環境訓練的核心差異。傳統訓練(SFT、RLHF)像是讓學生模仿老師怎么說,而 RL 環境是讓學生自己動手做事,失敗后一起復盤哪里錯了。
這才是真實世界的智能挑戰:任務是開放的,不是選擇題;工具是動態的,不是固定選項;決策是連續的,每一步都影響后續。
RL環境不僅是調優工具,更是未來AI工廠的新型基礎設施。prompt是過去的界面,環境是未來的場景。單輪對話是練習題,多輪任務才是實戰。
Surge 正在搭建這樣的實戰訓練場,讓模型在真實任務中干活、犯錯、成長。
人類不是靠看書長大的,AI 也不是靠喂prompt變聰明的。
第四節|不做流量號:AI該追求真相,不是討好
當下,大多數模型在訓練的不是做對,而是說得像對的。
你在 ChatGPT 里問一個問題,它會微笑回應:你是對的,而且你太棒了。再順手送上五種彩色 Markdown 格式的改寫版本。看起來豐富、熱情、聰明,但往往答非所問、幻覺頻出。
Edwin Chen點出了這個行業真相:
我們不是在訓練 AI 去理解世界,而是在訓練它討好人類的注意力機制。
而這背后的根源,是榜單文化和參與度陷阱
以當前風靡 AI 圈的排行榜LM Arena為例,它本意是讓用戶評比不同模型的回答好壞,結果變成了幻覺加粗體加表情包大賽:
模型 A 邏輯嚴謹但輸出干凈,
模型 B 胡說八道但字體大、排版花、語氣夸張,
普通用戶 2 秒打分,B 贏了。
Surge 團隊實測發現: 只要在輸出中加入更多 Markdown 標題和 Emoji,就能顯著提升排名。甚至輸出越長、內容越偏離事實,評分越高。
這種現象正在系統性污染 AI 模型的訓練方向。研究員為了年底晉升優化榜單,銷售為了簽單展示排名,管理層為了估值只看數據。
最終形成一條惡性循環:錯誤的評估→錯誤的激勵→錯誤的建模→錯誤的行為。
Edwin 說,這和社交媒體沒什么兩樣:
“我們不是在訓練AI講真話,而是在訓練它做流量號。”
更嚴重的是,這些模型最終被部署到企業系統、醫療工具、教育產品中,承擔的是決策職責。如果訓練它們的方向錯了,哪怕只偏 3 度,未來就會偏到無法回頭的地方。
我們本該建設能治愈癌癥、解決貧困、理解宇宙的 AI,卻在優化流量內容。我們在教模型追逐多巴胺而不是真相,為那些沉迷八卦的用戶優化模型。
行業需要的不是更多會討好人的模型,而是敢于說“不”的系統。
當用戶花 30 分鐘讓 AI 改了 50 版郵件時,理想的模型應該說:停下來,你的郵件已經夠好了,別浪費時間。但現在的訓練方向是:你絕對是對的,還有 20 種改進方法,讓我們繼續 50 次迭代。
AI 的競爭,表面看是誰更強大,但最終會是誰更正確。
技術決定上限,價值觀決定終局。
結語|AI 的盡頭,是價值觀之戰
四年時間,Surge 把一套被行業忽視的方法,變成了影響整個 AI 行業的力量。
它不靠噱頭贏市場,而是靠清晰的價值取向贏得未來。
在大多數公司還在調教模型說得更像人的時候,Surge 已經在問:我們真的知道自己想要 AI 成為什么嗎?
數據是門檻,環境是工具,模型是結果。但一切都取決于最初的選擇。
這不是工程問題,是人類選擇。





京公網安備 11011402013531號