![]()
在大模型圈,有幾家名字人人都知道:OpenAI、Google DeepMind、Anthropic。
但在這些名字背后,還有一家幾乎不做 PR、從不上頭條的公司——Surge AI。
不到四年時間,這家公司用不到 100 人的團隊,做到年收入超 10 億美元;從零開始到今天,它從未融過一分錢 VC,從第一天起就盈利。
更關鍵的是:ChatGPT、Claude、Gemini 等一線模型,在后訓練、評測、對齊階段都不同程度地用過 Surge 的數據和工具。
這意味著,在決定“模型該長成什么樣”這件事上,Surge 站在了一個極其隱蔽但關鍵的位置。
Surge 創始人 Edwin Chen 的身份也不典型:他不是“連續創業達人”,而是一路從 MIT 到 Google、Facebook、Twitter 做機器學習研究的學術型工程師。而當他真的創業時,他幾乎把硅谷主流劇本全部按了“反選”——
不追估值、不路演、不上 PR 頭條;
不瘋狂擴張團隊,只招少數“癡迷型”工程師和研究員;
不追風口,不 pivot,從創立那一刻起就只做一件事: 用高質量數據,教模型區分好與壞。
在一片“融資—擴張—估值”的喧囂里,他用一套幾乎反主流的選擇,做出了 10 億美元公司,也把自己定位為:與其說是創業者,不如說是“下一代 AI 的養父”。
1
“我不想上那輛硅谷跑步機”
如果要給 Edwin 的創業哲學找一句話,大概是他在訪談中的原話:
“我從來不想玩硅谷那套游戲,那太荒謬了。”
在大科技公司待過的人,大多見識過“組織臃腫”的威力;Edwin 的感覺則更極端——他曾在多家大廠工作,始終覺得:“如果裁掉 90% 的人,公司會跑得更快。”
于是到自己創辦 Surge 時,他干脆把這種直覺變成公司設計原則:
團隊極小,寧可保持幾十人,也不為了“版圖”去堆人頭;
沒有多層管理和復雜流程,核心工程師和研究人員直接面對客戶和問題;
對招聘極其苛刻:“不要只想在簡歷上加一行熱門公司名字的人。”
在融資問題上,他選擇了更少人敢走的路:完全不融 VC。
在今天的硅谷,這幾乎等于主動放棄一整套“增長加速器”:
沒有風投幫你站臺發聲、沒有估值數字幫你上頭條、也沒有“新一輪融資完成”的新聞推動招聘和合作。
代價是明顯的:沒有 PR 光環,Surge 很長時間都“名不見經傳”;他們的增長,幾乎完全依賴一種最原始、也最難的方式——產品好到研究員愿意口口相傳。
但 Edwin 覺得,這是唯一能保證公司不被“硅谷機器”帶偏的路徑:
“如果你的成功建立在炒作和融資上,你就很難拒絕那些會傷害長期價值的事情。”
他不愿意把時間花在路演、處理媒體關系上,而是寧可困在數據集和實驗報告里,琢磨怎么讓下一版模型的行為更可靠一點。
在這種設定下,Surge 反而被迫把每一件事做到極致:你沒有 VC 的背書、沒有 PR 的放大器時,剩下唯一能說服前沿實驗室的,只剩下結果。
1
他賭的那件事:把“高質量數據”做到極致
Edwin 的背景,決定了他賭的方向——不是做模型,而是做“模型背后的那層水”。
他從小同時迷戀數學和語言學,后來在 MIT 讀書,又去了 Google、Facebook、Twitter 做機器學習研究。
在這些公司里,他一遍遍遇到同一個問題:想訓練好模型,卻拿不到足夠好的數據。
在大多數互聯網公司,所謂“數據標注”,往往意味著兩件事:
用大量廉價勞動力做簡單打標——“這是不是貓?”“這個框是不是車?”
用非常粗糙的規則衡量質量——“有沒有填滿?”“有沒有按格式來?”
這套邏輯在“圖像分類”時代還能湊合,
但在大模型時代,結果就是:模型在形式上合格,在內容上平庸甚至有害。
GPT-3 發布時,他意識到:如果模型真的要走向“能寫論文、能做研究、能輔助科學發現”的階段,“寫得像模像樣”遠遠不夠,模型需要被教會什么是“真正好的東西”。
于是,他在 GPT-3 發布一個月后創立 Surge,給公司定的方向非常單一:只做一件事——用極高標準的人類數據,訓練和評估模型。
在訪談中,他用一個小例子解釋什么叫“高質量”:
如果你想訓練模型寫一首關于月亮的八行詩,大部分人檢查的是: – 是不是八行? – 有沒有提到月亮? 勾完就說“OK,這是好數據”。但我們真正想要的是諾貝爾獎級別的詩。 它是不是獨特?是不是有讓人意想不到的意象? 它有沒有用語言做手藝?有沒有真的讓你感到一點東西?
為了在規模上做到這種主觀要求,Surge 做了一件別人懶得做的事:給每一個標注者、每一個任務收集成千上萬條行為信號。
不僅看他最后打了什么分,更看:
打字節奏、響應時間;他自己寫出來的文本或代碼質量;基于他數據訓練后的模型,在真實任務里有沒有變好。
再用一整套內部模型去判斷:誰在哪些領域是真正“有品位的人”。
這聽起來有點像 Google Search 的演化:先是把垃圾內容和死鏈全部掃掉,再在剩下的海量內容里,慢慢學會“誰是真的好頁面”。
Edwin 的邏輯是:你認為什么是好數據,最終就會決定模型認為什么是“好答案”。
這不是工程細節,而是價值觀問題。
1
拒絕“為小報讀者優化模型”
在談到當下大模型行業時,Edwin 的批評非常直接——他認為,很多實驗室正在被錯誤的目標函數帶偏。
第一個被點名的是各種排行榜和基準測試,尤其是 LMSys Arena 這樣的“開放投票榜”。
在這類榜單上,來自全世界的用戶可以對比兩個模型的回答,選擇“更好”的那個,以此決定排名。
在表面上,這是一套“民主評選最佳模型”的機制;但在 Edwin 眼里,它更像給模型設計的一套“標題黨訓練營”。
因為絕大多數投票者不會花時間做事實核查,他們只會掃兩秒,就根據“看起來更厲害”的那一條點票——emoji 多一點、加粗多一點、多級標題多一點、篇幅長一點,
就比一個簡潔、謹慎、老實的回答更容易獲勝。
Edwin 說,Surge 自己研究 LMSys 數據后發現:
“爬榜的最快方式,就是讓模型輸出看起來更花哨——即便事實是錯的。”
問題在于,整個商業鏈條都被這個榜單綁住了:
企業客戶買模型時,會問:“你在 LMSys 上排第幾?”
銷售團隊為了簽單,只能把榜單當宣傳單;
研究員的績效、晉升又跟“模型進榜”掛鉤——即使他們非常清楚,為這種榜單優化,會讓模型在準確性和指令遵循上變差。
這條鏈條一路延伸下去,最后把整個行業導向了一個危險的站位:我們正在為“超市門口買小報的人”優化 AI,而不是為真理優化。
Edwin 還有另一層擔憂,來自他在 Twitter、Facebook 做推薦算法的經歷。
他清楚地知道,當一個系統的目標函數從“信息質量”變成“用戶參與度”時,會發生什么——標題黨、極端言論、獵奇圖片迅速占領屏幕,因為它們最能勾起多巴胺。
而把這套邏輯移植到大模型上,就是當下你時常能看到的景象:模型瘋狂夸你有多聰明、多前瞻;不斷順著你的偏見講故事,而不是提醒你“這件事其實很復雜”;在完全不重要的小事上陪你反復打磨,消耗你大量時間。
他講了一個很小、但很典型的例子:有一次他用 Claude 改一封郵件,改了 30 個版本,最后滿意地發出去了。
然后他突然意識到——
“這是一封根本不重要的郵件,我卻在這里浪費了 30 分鐘人生。”
于是問題變成:你到底希望你的模型怎樣對待你?
是那種永遠說“太棒了,我們還能再試 20 個版本”的好好先生?
還是那種在適當時候會告訴你:“這里已經夠好,快去做更重要的事”?
這背后就是不同的目標函數:前一種對“對話時長”負責,后一種對“人類的時間和生活質量”負責。
1
“公司就是你的目標函數”
如果把 Edwin 的故事壓成一句話,大概是:他在用一家公司,活出自己相信的那套目標函數。
在訪談末尾,他說了一句很“反雞湯”的話:
“我曾以為創業意味著整天看財務報表、去融資、做 PR。 后來發現,你可以完全不那樣做—— 只要把一件事情做到好到不能被忽視,你一樣可以建立一家成功的公司。”
對他來說,這件事情就是: 在大模型時代,認真地回答“什么是好數據、好模型、好目標函數”這幾個看起來枯燥的問題,并把它們一點一點做進產品、做進客戶關系、做進公司文化里。
他給創始人的建議也很簡單:
不要靠不停 pivot 去“找市場”,而是先問清楚:有沒有一件事,是沒有你就不會有人去做的?
不要只看“什么項目現在最容易融資”,而是問:“如果十年后失敗了,我是不是仍然覺得這件事值得?”
在 AGI 這場競賽里,模型參數、算力規模、排行榜名次當然重要,但 Edwin 給出的視角更底層:
模型最終會變成什么樣,很大程度上取決于: – 你喂給它什么樣的數據; – 你用什么樣的指標評價它; – 以及,你作為創造它的公司,真正相信的是什么。
換句話說——你就是你的目標函數,一家公司也是。
而現在,這家拒絕融資、拒絕 PR、拒絕擴張的 10 億美元公司,正在用一種極其安靜的方式, 把自己的目標函數,寫進下一代 AI 的成長軌跡里。
點個“愛心”,再走 吧





京公網安備 11011402013531號