![]()
“又一個登月時刻?”
這一期的主題是 2025 年中的 AI 復盤與展望。
節目分成了兩次錄制。第一次是在 7 月 18 日,真格基金管理合伙人戴雨森與晚點科技報道負責人程曼祺,圍繞月之暗面剛發布的 Kimi K2、AI 應用普及的新動向,以及近幾個月持續升溫的搶人大戰,做了一次中場回顧。
第二次是在 7 月 21 日,我們補充聊了剛剛發生的新進展:7 月 18 日,OpenAI 發布了 ChatGPT Agent;7 月 19 日,OpenAI 又宣布,一個尚未公開的通用大語言模型,首次達到了 IMO 國際數學奧林匹克金牌水準;7 月 22 日,Google DeepMind 也宣布,他們的 Gemini DeepThink 模型取得了同樣成績。這之前,只有 Google DeepMind 曾用為數學調優的模型達到銀牌。
兩年半前,曾寫下《通用人工智能的火花》的現 OpenAI 研究員 Sébastien Bubeck 形容,通用大語言模型拿下 IMO 金牌,或許會成為 AI 的一個「登月時刻」。
這場已持續兩年多的 AI 競速從未放緩,模型能力與應用創新交替上升,而兩者的進化速度,可能都在被低估。
全球的 AI 社區仍處于 Early Adopter(早期采用者)階段。他們愿意試錯、愿意反饋。當你拿出一個好產品,并以開放的態度對待用戶時,無論是 DeepSeek、Kimi、Manus 還是 Genspark,都已經證明:來自各地的用戶不僅會欣賞、支持你,甚至會主動幫你改進產品。
回看 Kimi K2 的故事,也能看到「投人」這件事在 AI 時代被重新認識的過程。Kimi 從一開始就是一個以技術視野和技術能力為底的團隊。2023 年,AI 風向幾乎月月在變,但楊植麟的團隊押中了長文本這個方向,并基于此做出了第一個具備搜索能力的版本。這是一場面向未來的下注。
AI 正在讓人們去嘗試那些原本不會做的事。這次 IMO 金牌事件更讓我們看清 AGI 即將到來的信號。如果說過去我們只是遠遠望見一輛冒煙的火車,如今,已經能清楚地聽見它的轟鳴聲了。
2025 年,屬于各行各業的「李世石時刻」,可能才剛剛開始。
OpenAI 拿下 IMO 金牌,又一個李世石時刻
晚點:最近有哪幾件重要的事值得展開聊聊?
戴雨森:確實過去這個周末發生了很多事情。我覺得最重要的一件是 OpenAI 的一個新模型,在 IMO(國際數學奧林匹克)2025 年的題目上獲得了金牌級別的成績。具體來說是六道題做對了五道。
這個為什么重要呢?因為按照 OpenAI 的描述,這是一個沒有聯網的通用大語言模型,并且沒有針對數學做特別優化,也沒有用任何 Code Interpreter 一類的工具。它完成的是 IMO 的證明題,而且 OpenAI 找了三位 IMO 的金牌得主來交叉驗證,確認這些解答是對的。
當然,這個結果也引發了一些爭議。比如有些人指出它還沒有經過官方認證,因此不一定有效。陶哲軒也說,IMO 題目的解法路徑會有很多不同,最終得分也會不一樣。
注:7 月 22 日當晚,Google DeepMind CEO Demis Hassabis 在 X 上發帖強調,這一結果已經獲得了奧賽組委會官方認定。
但不管怎樣,這個結果是一個劃時代的進展。語言模型沒有經過特別的數學優化,只在離線環境中就能解出 IMO 級別的證明題。像之前 Google 用 AlphaGeometry 是為數學專門設計的模型,還借助了形式化驗證方法,并不具備泛化能力。
晚點:這剛好是一年前的事,2024 年 7 月 Google 的 AlphaGeometry 達到了 IMO 銀牌的水準,當時差一點到金牌。但那不是通用大語言模型,而這次 OpenAI 說是通用大模型。
戴雨森:對,而且今年這個時間點正好是 IMO 出題的時間,OpenAI 是題目一出就做了,所以也不存在模型訓練時提前見過這些題的情況。
雖然過去一年語言模型已經有很多進展,但像數學證明這樣的任務,尤其是 IMO 這類題,屬于 hard to verify 的問題類型。驗證一個答案是否正確本身就非常難。
這類問題一直以來都被認為是當前語言模型難以勝任的任務。并且現實中世界上大部分真正的問題,事先都是沒有標準答案和解法的。所以當一個語言模型可以在沒有任何特別調教的前提下,解出這類高難度的題,達到人類頂尖水平時,這意味著它的思考能力確實上了一個臺階。
OpenAI 也提到,這種能力可以通過延長思考時間進一步提升,這也驗證了 inference scaling law(推理擴展定律)。
我們以前聊過,除了 pre-training,還有 post-training 和 inference scaling law。這次的結果說明:
LLM 的泛化能力很強,能解決我們原來認為解決不了的問題;
模型能力越強,可應用的場景越多,所創造的價值也越大;
IMO 的證明題和現實中的某些理科的問題在形式邏輯上很相似,都是證明題。LLM 既然能做前者,也許說明它離發現新知識的能力也不遠了。
目前它肯定還不能解決像哥德爾猜想這種超難問題,但發現理科新知識這件事,可能已經是一步之遙了。
還有一個八卦:據說這次 OpenAI 使用的模型和 GPT-4o 是同一個底層模型。也就是說,取得這個成績并不是因為底層模型有很大提升,而是在 post-training 和 inference 階段做出了優化。后續的優化空間給整個 AI 發展帶來了很多想象。
晚點:你是從一些技術人員那聽來的描述是嗎?
戴雨森:對,簡單打聽了一下。這事情也就 24 小時之內發生的,但我感受非常強烈。
這讓我想到 2023 年 3 月微軟那篇論文《Sparks of AGI》,當時他們測試 GPT-4 的預發布版本,感嘆從中看到了 AGI 的火花。那篇文章也就兩年半前,而現在我們已經走到了能解 IMO 的地步。兩年半在科技進步史中是很短的時間,甚至比很多創業公司從種子輪到產品發布還短。
那篇文章的作者后來加入了 OpenAI,他在看到這次 OpenAI 模型獲得 IMO 金牌成績后說,這是「AI 的登月時刻」。
一個「只是預測下一個詞」的語言模型,在沒有任何工具輔助的情況下,能夠完成一個只有極少數天才人類才能做出的有創造性的數學證明。這確實說明 AI 的能力已經到了一個新的高度。
我們年初錄節目《和戴雨森長聊 AI Agent》時也說過:2024 年會是很多行業迎來「李世石時刻」的一年。所謂「李世石時刻」,就是 AI 在某個領域超越了人類最強水平。
我們已經在圍棋、編程、數學推理等領域看到這種情況不斷出現。接下來還會有更多這樣的時刻等待著我們,解決我們原本以為還很難、很遠的問題。
晚點:而且我還看到一個信息:似乎不止 OpenAI 做到了。因為 OpenAI 發這個消息之后,一個 Google 的研究員也在 X(原 Twitter)上發帖,說 OpenAI 搶先發布了。
戴雨森:我們也在拭目以待。好像 Google DeepMind 也做到了金牌,但我們不知道是不是用通用模型實現的。如果真是通用模型,那就說明這個能力已經不只是一家掌握的。這種技術一旦擴散開來,會帶來推理能力的大幅提升,不管是哪個模型廠商都會從中受益。
注:7 月 22 日,Google DeepMind 宣布,Gemini Deep Think 模型獲得官方認證的 IMO 金牌,并公開了具體解題過程。這一通用模型僅用純自然語言(英語)完成了解題。
晚點:你和國內一些從業者交流過,他們對這個成果是感到吃驚,還是覺得其實也在預期之中?
戴雨森:我覺得方向大家早就知道,是朝著更強 reasoning 能力去的。誰都知道 reasoning 能力提升了,模型就能解更難的題。但現在就能做到確實還是讓人很震驚。我聊到一些中國最頂尖的研究者,他們也表示非常驚訝。但就像原子彈一樣:爆炸那一刻起,大家知道這件事情可以做到,就已經離做出來不遠了。
晚點:從技術進展的角度看,圍棋、編程、數學是三個典型的「李世石時刻」。你怎么看這三個的不同影響?
戴雨森:數學推理其實比編程更難。
編程屬于好驗證的問題。強化學習在編程上容易成功,一大原因是因為它的 reward 清晰。代碼能運行、能通過 test case 就說明結果是對的。
但數學證明題的判卷是非常復雜的。IMO 就是典型的「hard to produce, hard to verify」的問題。
圍棋是一個雙方信息公開且完備、勝負明確的任務,非常適合強化學習;編程也是結構化任務,而且很多代碼是已有人寫過的,拼裝比全新創造多。
但數學是理工科的基礎,它的推理是很多學科的根基。而且不依賴自然世界實驗,只靠邏輯思維。所以 AI 能解 IMO 級別的證明題,意味著理工科很多知識生成方式可能都要改變,帶來的科學進步可能比編程還大。
晚點:你覺得這個應用影響會更大?
戴雨森:有可能更大。因為編程現在替代的是一些重復性較高的初級工作,比如 Vibe Coding 大部分還是復制粘貼一些前端代碼。但數學推理帶來的是非常強的思考和潛在的新知識發現能力。顯然,這是更值錢的部分。
AI 會不斷替代簡單任務,而人類往更有價值、更難的方向走。但現在 AI 正在追著人類解決那些最有價值的難題。
這就是為什么我說這次 IMO 金牌事件讓我更清晰地看到了 AGI 即將到來的信號。如果以前是遠處看到一輛冒煙的火車,現在已經能聽到它的轟鳴聲了。
晚點:有人在 X(原 Twitter)上說強化學習現在也能處理那些獎勵反饋不是很直接的領域。這可能是這次進展背后更大的突破之一。還有人提到「驗證的非對稱性」,說有些任務你做出來的時間可能比驗證時間還短。IMO 數學題就屬于這種類型。
戴雨森:對,以前很多任務是「hard to produce, easy to verify」,比如寫代碼。但現在變成了「hard to produce, hard to verify」。
晚點:不過有人認為,在這些驗證成本高的任務上,AI 還很難完全替代人,因為最終還得靠人來判斷。
戴雨森:有可能。但光是給出證明這一點,其實就已經是質的飛躍。現在我們還不知道所有細節,但我們期待更多公開信息,或其他模型公司復刻類似成果。按照目前 AI 的發展速度,只要一件事被做到,那它就已經不是遙不可及的難題了。
ChatGPT Agent 發布,「殼」的價值在于 context
晚點: 7 月 18 日凌晨,OpenAI 發布了 ChatGPT Agent。不過和 Manus 不同,這個 Agent 讓很多人其實覺得有點失望,沒有那么驚艷。
戴雨森:我覺得這反映了 OpenAI 作為 AI 的領頭羊、最大的 AI 應用公司,他們也把 Agent 作為重要的方向。就像我們年初就開始討論的:理解目標、拆解規劃、編程使用工具、對結果進行復盤和反思。從一開始的構想,到 Devin、Manus 等第一波產品的出現,再到 ChatGPT Agent 的發布,Agent 確實逐漸成為了 AI 應用的共識,變成了大家聚焦的方向。
晚點:有人說「OpenAI 發了一個 Manus」,你怎么看?
戴雨森:我們不會這么想。我覺得不能低估 OpenAI。他們有最多的人、最多的卡、最多的用戶,在安全性上也做了很多考量,加了很多額外約束。其實 ChatGPT Agent 的能力是被限制得很死的,這是負責任的表現。
這個產品也是他們第一個在 AI 安全性評估中被列為「高危險級別」的,說明他們確實擔心這類 Agent 會遇到比如釣魚網站、或者生物武器信息等風險(詳見 OpenAI 發布的 ChatGPT agent System Card)。當公司變大,就會變得更謹慎;這也反過來說明了創業公司的行動力快、敢于突破的機會所在。
晚點:我覺得「發了個 Manus」的說法也不一定是說效果不好,更多是說產品形態。它其實把 Operator 和 Deep Research 結合起來了,形態上有點像 Manus 或 Genspark。
戴雨森:是的,Manus 確實探索出了一個方向:讓 AI 在做什么可以被直觀看到,讓人理解背景,否則如果只看到最后的結果,會很困擾。所以我們看到 Manus、Genspark、Kimi,還有 MiniMax 等中國團隊也在針對 OpenAI 的 Task,用自己已經發布的線上 Agent 做對比。不得不說,這些公司的產品在很多維度上的表現,比如做 PPT 的任務,確實比 ChatGPT Agent 要好。
晚點:ChatGPT Agent 做出來的 PPT 真的有點丑。
戴雨森:但這讓我有幾個啟發:
第一,中國團隊在產品力上確實不錯。移動互聯網時代就有很多例子,比如 TikTok、Shein、剪映,中國團隊確實做出了很多好產品。
第二,所謂的「套殼」產品,也就是調用 API 的應用,并不會就一定被 model native 產品吊打。之前大家以為 OpenAI 下場,訓練的模型能端到端處理,就能完全替代第三方。但其實不然,尤其 Agent 需要更多 context 和工具,很多都依賴殼和應用本身提供的環境。
Manus 分享的那篇關于 Context Engineering 的文章《如何系統性打造 AI Agent 的上下文工程?》就收到很多好評。因為這就是一個大家現在都在解決的問題,里面有很多實踐是需要時間和經驗的。
我理解,Context Engineering 最早是來自于 prompt Engineering。prompt Engineering 就是給 AI 一個命令、一個任務,然后 AI 自己去做事。這很像傳統管理方式:老板布置任務,員工去執行。而像 Netflix、字節等先進公司強調的「Context, not control」,意味著要給員工更多上下文和授權,才能更好完成任務。Context Engineering 也是類似的道理:我們要給模型提供的是能夠幫助它更好完成任務的上下文。
第一個層面,就是單個 session,看我們怎么提供更好的上下文、更好的數據、以更適合模型操作的格式去處理它。
第二個層面,是多 session 或跨 session 的個性化記憶:比如說今天做了什么,明天再做對應的事,用戶的偏好、習慣、工作經驗,能不能累積?這個長期可能成為護城河。因為同樣的模型,誰有更好的上下文,它就更懂我。
第三個層面,是產品設計本身可以提供模型原本獲取不到的上下文。比如大家設想的一個還沒做出來的產品:戴個眼鏡可以實時看到周圍世界。這樣的 context 是模型自己無法產生的,必須通過好的硬件與軟件設計來實現,也說明了產品層的價值。
晚點:你說的眼鏡能看到的數據,是現在所有互聯網巨頭都沒有的。
戴雨森:對。所以從 ChatGPT Agent 的發布,我覺得可以看到三點:
第一,Agent 方向逐漸達成共識;
第二,創業公司在模型核心巨頭面前,依然有靈活性、先發優勢和競爭力;
第三,進一步印證了我們之前說的兩個被低估:模型進步速度被低估了,產品「殼」的價值也被低估了。
模型這條線,OpenAI 這周剛拿下了 IMO 金牌,說明它的進步速度還是很快。而 OpenAI 自己做的 ChatGPT Agent 還有很大提升空間,說明「殼」的價值也非常重要。所以我覺得模型和應用都被低估了。
晚點:你剛說的 context 的價值特別好。它其實和管理學也打通了,比如 Netflix 的那本書《No Rules Rules》最開始就講了這個邏輯。AI 確實很像一個人,你要教它、要給上下文,比起給它具體指令,這可能是更好的方式。
戴雨森:第一階段大家都在寫更好的 prompt,就像老板寫 brief。后來發現要加更多示例、更好的上下文、更適合模型工作的環境。這其中有很多具體技巧。Manus 的文章就分享了很多。我想說的是,更多的 Context 帶來模型能力的提升,也反映出我們對 AI 的使用越來越深入,產品本身也越來越完善。以前一句 prompt 就能跑,現在產品本身要承擔更多事情,產品公司的價值也在這里體現。
晚點:你覺得這一層的應用價值,什么時候會被模型本身做掉?是不是等到模型具備在線學習能力、能不斷吸收新的上下文的時候?
戴雨森:也得看你的產品有沒有用戶 input。如果沒有用戶輸入,那模型再怎么學習也沒法學到用戶自己獨特的東西。
晚點:所以是不是又回到一個曾經被否認的邏輯?以前移動互聯網時代,用戶越多,數據反饋越多,推薦越準,有一個數據飛輪。但后來大家覺得大模型里用戶輸入對模型智能提升沒啥幫助。但你剛剛的意思是:用戶輸入對上下文是有幫助的。
戴雨森:這是兩個不同的問題。大家說的數據飛輪失效,指的是用戶的聊天記錄不能提升模型智能。這我同意。因為現在模型的智能已經超過普通人。你跟它聊些日常話題,沒法提升它的能力。
最開始模型通過 RLHF(人類反饋強化學習) 來學習人類偏好,現在來看普通人反饋意義不大。比如 AI 都能解 IMO 的題了,為什么還要在意普通人覺得哪個答案更好?所以對于有標準答案的任務,用戶輸入越來越沒什么價值。
但如果是完成一個具體工作,比如 Agent 在完成人類工作時、怎么更好達成目標,這時用戶的輸入和喜好當然有用。
晚點:所以用戶數據其實對產品體驗是有幫助的,但不一定能直接提升模型能力?
戴雨森:是的,尤其是在智能能力或者那種有標準答案的任務上。最開始大模型可以看作是對大量人類平均智能的一種壓縮。當時特德·姜(Ted Chiang)不是就說過,語言模型本質上是對互聯網的模糊壓縮嗎?但現在,它顯然已經超越了普通人的水平,達到了某種超人水平。在這個階段,簡單的數據可能就沒那么有用了。
晚點:現在這個時間點,是越早做 Agent 越好嗎?因為你積累的用戶上下文越多,價值也越大。之前大家可能擔心新的強模型會把已有產品淹沒掉。
戴雨森:如果你沒有上下文、沒有環境,最后只是調模型,那確實可能被新模型取代。
AI 應用普及:最重要的、被高估的、被低估的
晚點:上次我們聊是二月份,轉眼到現在差不多五個月了。今年已經過去一半,回頭看,你覺得 2025 年上半年 AI 領域發生的幾件最重要的事是什么?
戴雨森:整體來說,AI 已經從一個偏研究性質、看起來很新穎但實用性有限的技術,進入到了主流市場。上半年我認為有幾個重大進展。
第一,是 AI 在編程領域的突破。Coding 已經成為 AI 應用的重中之重。我今天還聽說 OpenAI 現在已經有三個業務線:GPT、API 和 Coding。用戶也發現 AI coding 產品非常有用,也愿意為此付費。Cursor 等 AI 編程工具的成長速度就是一個代表。Claude Code 也有人稱是 L3 或 Agent 級別的產品,能比人類寫得更快更好,代碼更優雅,還能處理更大的代碼庫。所以 AI 在編程領域已經正式跨越鴻溝,進入了主流市場。
第二,是 o3 在四月的正式發布,伴隨著 ChatGPT 用戶的高速增長,這是推理模型的持續演進。從去年下半年開始我們就看到 OpenAI 推出 o1、R1,到今年的 o3,它標志著推理問答、題解這些能力從科研層面進入到了普通用戶可以使用的產品,是真正的落地了。
ChatGPT 的用戶增長還在持續,這一波也受益于 o3 推理能力的提升。我們也看到年初中國這邊的突破,比如 R1 是國內在 reasoning 上邁出的重要一步,Kimi Researcher 也是第一個廣泛可用的 deep research 類產品,用戶反饋很好。AI 在這個領域已經比絕大多數人做得更好了,也是跨越鴻溝。
第三,是 Agent 應用開始普及。比如 Devin 是第一個讓人看到 L3 Agent prototype 的產品。Manus 和 Genspark 都是在三月發布,Claude Code 也在不斷完善。我們看到隨著模型在推理、編程、工具使用這三大能力的增強,出現了第一批具備完整 Agent 形態的產品:它們能接收模糊目標,自主調用工具,尋找解決方案,評估任務進度,并最終完成任務。雖然它們還不算主流,但已經進入 Early Adopter 階段,部分場景下用戶非常愿意用。盡管還有不少問題,但 Agent 已經變得有用了,這是上半年 AI 應用領域最重要的進展之一。
第四,是多模態能力的快速進步,尤其是圖像生成。從早期像玩具一樣的工具,變成了實實在在的生產力工具。比如 ChatGPT 的圖像生成對語義的跟隨非常好,能準確理解用戶意圖。現在很多人用 AI 來畫漫畫、畫流程圖、做視覺內容。這種生成能力的提升已經變得非常實用。
晚點:它也能支持 Agent 做出更豐富的輸出,對吧?
戴雨森:對,因為它的指令跟隨能力越來越強,能更好滿足用戶需求。原來是像抽卡那樣的不確定性,現在已經越來越好了。直播頭像好多都變成了 AI 生成的。
Veo3 也是一個很厲害的模型。它加入語音配音后,我發了個朋友圈感嘆,它生成的世界已經接近真相難辨的虛擬世界了。Veo3 第一次讓我有一種跨越恐怖谷的感覺,真假難辨。
第五,是搶人大戰。無論是 meta 的大規模挖人,還是創業公司瘋狂融資,再到 Windsurf 最近收購的 drama,都說明硅谷對人才的爭奪和資本競爭進入了一個新的階段。我們在國內也感受到類似熱度:融資額上升、項目搶手、一個月融資幾輪的情況又出現了。這背后是因為大家真的看到了 AI 正在落地,不再只是概念,很多已經實實在在地產生收入了。
晚點:你關注的主線還是圍繞 AI 的應用普及,技術的變化是原動力,對嗎?
戴雨森:我們認為模型基礎能力的提升是解鎖應用場景的關鍵。模型能力配合好的產品設計,才能真正釋放價值。一個真正有價值的 AI 應用,一定能通過某種方式讓用戶付費,比如訂閱或按工作交付。所以我們特別關注 AI 在提升生產力方面的價值,尤其是在數字世界里的應用。可以看到我們投的很多是 AI Agent 或者 AI 生產力方向的項目,因為這是當下最能真正幫用戶解決問題的場景。
晚點:除了你說的應用這條主線,其實 AI 硬件也很熱,比如機器人,具身智能其實也在 AI 產業鏈上。
戴雨森:是的,但我認為上半年有一個被高估的方向,就是人形機器人。特斯拉最近下調了對 Optimus 的生產預期,我覺得很有代表性。
去年我就說過,大家對 Optimus 進工廠打螺絲的期待值太高了。當時有人說 2025 年特斯拉就能有一萬個機器人進廠干活,這完全低估了 manipulation(操作控制)的難度。現在我們看到的一些 demo 確實越來越好,比如疊衣服,但真的要機器人做出一杯咖啡,還是非常難的。
當然,我認為這個領域還在快速發展,在未來幾年可能會看到 manipulation 的「ChatGPT 時刻」突破,但如果期待 2025 年就能大規模落地,我覺得是大大高估了。
技術的發展不能拔苗助長,必須經歷:方向確定、逐漸放大、形成產品、再到大規模落地,這幾個階段,沒法跳過。機器人目前顯然還處在早期探索階段。
晚點:另一方面,你覺得這半年有沒有一些被低估的事情、公司或者現象?
戴雨森:我覺得首先,應用的價值還是在被低估的。一年前,大家還在講模型公司會顛覆應用公司,說「應用只是套殼」,這個業務模式不成立。當時不管是 Manus、Genspark,還是很多其他公司,都經歷了不少質疑,說:「你是一個殼公司,有沒有長期價值?是不是模型一升級你就完了?」
現在這個爭論雖然還在繼續,但顯然不是模型升級了應用公司就會完蛋。相反,好的應用公司是期待模型升級的,這樣可以讓用戶享受更強大的體驗。「殼」的價值仍被低估了。
第二,優秀團隊的價值也在被低估。不管是 Kimi、Manus,還是 Genspark,我們歸根結底是投人。
大家之前可能不會料到,肖弘能做出一個世界級的 AI 應用。而幾天前發布的 Kimi K2,在 7 月 15 日這個時間點,可以說是全球最強的開源大模型,沒有之一。它在 coding、Agent 工作流和中文寫作等方面的表現,確實優于 Claude。當然,Claude 是在年初發布的,但在 AI 這個領域,六個月就相當于很久了。
OpenRouter 上的調用數據顯示,K2 剛上線沒幾天,昨天還在編程類目里排第 13,今天就升到了第 10,前面是 Claude、Gemini、GPT。這種上升速度是非常快的,說明用戶反饋非常好。但現在大家其實已經對 benchmark 麻木了,對吧?我們更看重實際用戶的使用反饋。
比如 Perplexity 的創始人就在推特上說,他們團隊已經開始調研在 Perplexity 上引入 K2,也明確表示:Kimi 做得非常好。
Kimi 是最典型的例子,但不是唯一的。我們也討論過 DeepSeek 后他們團隊的轉型問題,Kimi 背后的 Moonshot 也經歷了很多復盤,并集中精力攻堅下一代模型。我覺得外界太容易在很早期就下結論,比如說 DeepSeek 出來的六小龍公司是不是都不行了。但實際上,如果一個團隊足夠穩定,有優秀人才、有資源、有意志,那他們的主觀能動性和突破空間遠遠被低估了。
第三,我覺得模型能力進化的速度也被低估了。比如現在已經有傳言說 GPT-5 很快就要發,它可能是一個原生多模態、推理能力非常強、具備高級 Agent 能力的模型。
現在新產品發布的時候往往會被噴,說畫了大餅但實際上產品體驗沒有那么好。但好的應用公司需要為 6 到 12 個月后的模型設計。比如 Cursor 一開始發布的時候,當時的模型還無法實現它的完整愿景,直到 Claude 3.5 Sonnet 出來,Cursor 才真正成為一個好用的產品。
Manus 在設計時能用的最好模型是 Sonnet 3.5,發布時 Sonnet 3.7 剛上線,Manus 因此能夠完成一些更復雜的任務,之后 Claude 4,Gemini 2.5 Pro 等新模型的發布也進一步提升了 Manus 的表現。也許再需要 1-2 個模型的大版本迭代,才能夠充分讓主流用戶感受到 Agent 帶來的生產力提升。
所以我們認為,未來模型的能力提升仍然非常快,也許很快就會有讓大家震驚的發布出現。那時,模型增長和應用價值可能都將超出市場預期,整個 AI 發展節奏也會再度加快。
晚點:這半年還有一個我之前沒有想到的新變化,就是最近非常激烈的外賣大戰。因為外賣大戰這件事情牽扯了好幾個巨頭的精力和資源,包括阿里、美團和京東。你覺得這個會怎么影響中國的 AI 的格局,或者說對創業公司來說,它可能會有什么影響?
戴雨森:現在看其實還是兩個戰場。從長期看,可能會對資源投入產生一些影響。
但我看阿里云的增速預期還是挺高的。今天 Jensen 還宣布可以重新向中國銷售 H100。我們看到,今年美國這邊的 IDC 和云服務增長得非常快,因為應用落地之后推理的用量會大幅增長。
我認為中國市場的發展路徑也會是類似的。當 Kimi、字節、DeepSeek 等公司推出更好的模型后,更多場景被解鎖,推理的算力需求也會很快爆發。知識工作者在中美其實都很像,大家都用 Office、都要搜索、都用 deep research 工具,在美國市場已經驗證的這些需求場景在中國遲早也會爆發。
當然這跟外賣大戰沒什么直接關系。但比如說阿里云、火山云這些中國云服務商,可能也會經歷一次美國那樣的增長過程。
從 DeepSeek 出發,不同公司各有演進之路
晚點:我們接下來圍繞一些具體的方向聊聊,你覺得為什么 DeepSeek 還沒發布 R2?
戴雨森:哈哈,這個現在還是挺神秘的,我們也只能通過一些外圍信息去了解。我聽說現在 V4 還在訓練階段。因為他們當時是先發了一個 V3,然后再發 R1,那現在 V4 都還沒補發,聽說還在訓練中,那 R2 的發布時間可能就要等到 V4 之后了。但我相信 DeepSeek 肯定在做很多有意思的創新。我們也和里面的一些同學聊過,知道他們的創新能力是非常強的。不過我覺得他們也確實會受到算力資源的限制。畢竟卡的總量是有限的,而且他們發布模型之后,還有大量的算力要用來做推理(inference)。
晚點:對,我覺得他們現在可能也在思考模型或者智能未來的演進方向,基本上還是不做多模態。
戴雨森:對,這其實反映了一個很現實的情況:DeepSeek 的資源沒有多到可以在所有領域對標 SOTA。所以就像 Claude 背后的 Anthropic 一樣,他們要做一些判斷:哪些方向在當前階段最重要、最能出結果,然后集中資源突破;而對于一些尚不明朗的方向,他們可以等等,等到思路更清晰之后,再利用自己的工程能力和團隊的努力趕上。
而字節 Seed 現在可能是在試圖做到全面領先:他們有 Edge 組去做最前沿的研究,有 Focus 組去沖擊 SOTA,還有 base 組去做服務產品應用。這種是全棧型的布局。
相比之下,DeepSeek 更有選擇性,比如重點突破模型智能。當資源不那么充足時,確實需要做一些取舍。像 Seed 這樣的組織結構,把 Edge、Focus、base 三個方向明確分開,我覺得是更明確的。
晚點:對,他們現在就是這種比較明確的分工結構。Edge 一開始列了五個方向,現在可能已經擴展到了十幾個項目,確實挺厲害的。
戴雨森:我覺得把應用和研究分開,再把研究中的 SOTA 和 Frontier 部分繼續細分,是比較對的做法。之前大家可能就是分成 Frontier 和 Applied Research,但那時候資源不夠,組織的職責也不夠明確。普遍的問題是:如果你讓一個模型團隊既要做前沿研究、追趕 SOTA,甚至超越 SOTA,同時又要滿足 App 的落地需求,這兩個目標是很容易沖突的。
Kimi 在過去半年其實也總結了很多這方面的經驗。如果有個大用戶量的應用在線上,需要花大量精力去維護,處理各種 corner case,修 bug。但這些工作其實對推動下一代模型、挑戰 SOTA 的幫助是有限的。今年就沒有投入太多精力在 K1 的迭代和應用功能上,而是專注于做下一代模型,來拓展模型智能的邊界。
晚點:這也是我們以前反復會問大模型創業公司創始人的一個問題:你一邊做模型,一邊做產品,中間的精力怎么分配?
戴雨森:目前來看,我覺得還是要先把一個方向做到極致。比如你如果是做應用的,那就假設自己能用上最好的模型,誰最強、最合適就用誰。但如果你是做模型的,那目標就是讓自己的模型保持在 SOTA 水準,在某個具體領域做到最強。
投人的價值,K2 如何逆風翻盤
晚點:我想聊一下 Kimi K2。今年年初 DeepSeek 引發熱潮后,Kimi 內部也有了一個比較明確的目標,就是要追求 SOTA。在這個目標下,K2 應該是他們做出方向調整后第一個比較重磅的成果。你對這個過程是怎么理解的?
戴雨森:我想先講個小故事。前幾天,暗涌在良渚組織了一個圓桌,把投資了 Kimi 和 MiniMax 的投資人都請到一塊。我還開玩笑說,這像是一個「同情局」,仿佛我們投了大模型公司,很慘該被同情。但我覺得,其實真正體現一個團隊能力的,是他們面對挑戰時的應對方式,以及是否堅持自己的路線去做有價值的創新。
順風的時候有順風的打法,逆風的時候也有逆風的打法。像 MiniMax,他們專注自己的方向,現在也在推進上市流程。這就是他們面對挑戰的方式。當然,也有一些公司在逆風中內部團隊發生較大變化,甚至業務方向都有調整。但我覺得 Kimi 特別的一點,是他們的團隊非常穩定。如果你看他們的創始團隊或核心成員,幾乎沒有大的變動。
晚點:這其實就是我第一個好奇的點。現在很多公司到了聯合創始人或核心業務負責人層面,都會有一些變化,但 Kimi 基本沒怎么變。
戴雨森:這可能跟他們的團隊組成有關。Kimi 的創始團隊一直是以植麟為核心,而且成員是清華的老同學,之間合作很多,甚至是室友還一起玩過樂隊。并不是因為要做大模型公司才臨時組起來的。
晚點:我查閱資料時發現,當年楊植麟去評特獎的時候,有一張照片是他們系的一些同學舉著橫幅去支持他。幾位他們系的師弟師妹都會說楊植麟在當時就是一個讓大家覺得、非常有號召力的人。
戴雨森:沒錯,這也是我們從一開始就決定投資他們的重要原因之一。這個團隊不僅有技術,而是有很長的共同信任。創業會經歷很多挑戰,如同壓力測試,在面對挑戰的時候,團隊穩定和方向聚焦會很重要。
Kimi 這個團隊從一開始就是以技術基因和技術視野作為核心能力的。很多人可能已經忘了,在 2023 年的時候,AI 的變化太快,幾乎每個月都有新風向。當時,Kimi 就對長文本這個方向做出了很重要的判斷,選擇做了一個具備長文本能力的模型,并基于這個推出了帶搜索能力的 Kimi 第一個版本。
那時大量的 AI chatbot 其實是沒有搜索功能的。沒有搜索,模型的用途就會受到很大限制,比如你隨便問一個「現在的美國總統是誰」,它都可能答不上來。
Kimi 團隊當時對長文本技術方向的判斷就展現了他們非常強的技術 vision。到了 2025 年,AI 更強調 Agent 能力、復雜任務執行、以及處理更大的代碼庫,大家才真正意識到長文本的重要性。如果你真的要讓 AI 做一個 Agent,完成一個復雜任務,它不能只是執行 100 步就歇了。回頭看,其實這也驗證了植麟判斷上的準確。
所以我覺得他們團隊身上,有三個特別重要的品質:
第一是團隊的穩定性。這來自于成員之間長期的淵源和信任。
第二是對技術方向的堅持。他們不是看到哪個火就往哪兒跟風,比如陪伴火了去做陪伴,多模態火了又去做多模態。很多方向都可以做,但真正有積累的是那些持續做一件事的團隊。
第三是他們一直保持的技術敏感度和洞察力。這個在技術變化的關鍵節點上尤其重要。
當然 R1 的成功也確實給了行業很多啟發,這一點毫無疑問。當時很多人看到 R1,有個流行說法是:「pre-training 不重要,post-training 才重要。」但我認為 R1 的基礎是 V3,這恰好說明好的基礎模型很重要, pre-training 和整體架構優化可以帶來模型能力的提升。K2 現在還是個 non-reasoning 的模型,已經呈現出很好的能力,這也說明 pre-training 依然很重要。
開源也很重要。現在全球 AI 社區正處于 Early Adopter(早期采用者)階段,通過開源優秀的模型和產品給社區提供價值的團隊,很容易得到熱心的回應。我們在 DeepSeek、K2,以及我們 sponsor 的 vLLM、ControlNET 等開源項目中看到,只要不斷拿出好的產品,保持對用戶開放交流的態度,世界各地的用戶都會欣賞、支持你,甚至主動幫你改進問題。但只是開源不本質,本質是開源好的東西,不是開源就一定好,社區覺得好才是核心。
晚點:說到開源,因為 K2 是 1 萬億參數,開源社區里能真正部署的人很少。
戴雨森:K2 主要的場景不是在本地機器部署,事實上要在本地滿血跑 Deepseek R1 也不簡單。開源的核心不在于本地部署,而是讓大家對模型有更多自主把控。
晚點:你能總結下他們為什么能做出 K2 這種級別模型?現實過程中遇到了哪些挑戰?外部輿論把他們放在低谷,是否帶來很大壓力,比如人才流失?我指的不光是核心層,還有一線工程師。
戴雨森:這里肯定有人流失,但 Kimi 有兩點優勢:第一,核心層很穩定;第二,很多年輕同事愿意留在 Kimi。
我覺得大家留下不只是因為錢,更因為能學到東西,能干成自己覺得厲害的事。這符合 Kimi 核心團隊的基因。
之前做投放時討論過,他們做投放不是強項,但現在是回歸了初心,做團隊能力最強的方向。我覺得這很重要。面對外部市場壓力,首先不要亂,要聚焦自己最擅長、最能做好、最有意義的事情。知乎上也有好幾位 Kimi 的研究員寫了參與 K2 的很多感想。
技術變化:推理、編程、工具使用
晚點:在技術領域,你會比較關注哪些變化?
戴雨森:我們之前聊到過,我認為解鎖 AI 生產力的三大主線是 reasoning、coding 和 tool use。
在 reasoning 方面,我們看到了 o3、o4 mini 的發布,還有后來的 o3 pro。雖然這些模型在一些榜單上表現進展不大,但我們自己的使用體驗是,o3 相比 o1 是一個明顯的大臺階,o3 pro 在推理長度和邏輯連貫性上也越來越好。現在很多模型在 reasoning 的細節上都有進步,比如細節的幻覺減少,推理結果更嚴謹。
同時我們還看到,一些小一點的模型也開始具備很強的 reasoning 能力。像 GPQA 或 AIME 這些反應模型 reasoning 能力的指標都非常高。K2 在這方面也表現不錯。
晚點:我們之前和一些人交流,比如阿里云 CTO 周靖人,他并不覺得像 o 系列的更新是特別大的范式變化。他認為這還是在大模型原有方法框架內的自然延展。
戴雨森:這個我同意。如果這些模型還是 Transformer 架構,那它們就還是在現有范式內演進。大家現在都在期待下一個 Transformer 是什么。
不過有時候,一個技術范式就可以走得很遠。就像高速公路可以用幾十年,不一定非要每年都有顛覆式的架構變化才叫創新,實際上,如果每年都有顛覆式的技術發生,那說明這個行業還很不穩定,反而不一定適合產業落地。今年我們在產業上真正能用到的技術,并不是從 0 到 1 的變化,更像是從 1 到 10,甚至從 5 到 8 的進化。像 reasoning 的進步,就是從很好變成非常好。
在 coding 上,Sonnet 3.5 已經很不錯了,但 context 長度還不夠,自我糾錯能力也一般。Sonnet 3.7 和 4 跑在 Claude Code 上效果非常好。對復雜代碼、長代碼段,它們常常一步就能做對。這不是從 0 到 1,而是從 7 到 10 的質量提升。
晚點:在基礎模型的競爭上,Google 最近的勢頭也很強。過去兩年 OpenAI 橫空出世時,Google 給人感覺有點被打懵。但現在 Gemini 2.5 的口碑和實際使用反饋都很好。
戴雨森:確實,Google 技術積累深厚,人才密度高,又非常有錢,算力也很充沛。所以我們今年明顯感覺到 Google 的邊際變化是很大的。
模型層面,Google 的 Gemini 2.5 表現非常好。云服務層面, 提供同樣的 Claude API 推理服務上,GCP 的表現其實更好,這背后也離不開 TPU 的支持。Google 的實力很強,是現在模型領域前三名中非常有競爭力的一家。
但他們現在也有一個現實問題,就是 Google 的搜索主業正在承壓。因為擔心 AI 對搜索廣告帶來沖擊,所以它的股價一直在震蕩。我覺得這就是一個典型例子:老業務在受損,而新業務增長又很快。這最終會怎么演化,我覺得可能還需要一兩年才能看清。
應用的生長,讓 AI 不止于問答
晚點:這也回到了你之前提到的一個主題:模型和上層應用之間的關系,現在這個關系還在演變。
戴雨森:應用的價值首先取決于模型本身,也就是模型廠商固化在權重里的那些基礎能力。模型的推理能力、編程能力越強,應用所能釋放的價值就越大。但權重一旦固定,內容就是死的,而問題是動態的,所以需要引入 context,現在流行的 context engineering vs prompt engineering 也說明了 prompt 模型并不夠,還需要更多更好的 context。
我認為 context 可以分為三層:
第一層是通用信息,比如「今天的天氣怎么樣?」這類模型本身是沒有的,需要通過搜索等方式動態獲取。雖然現在也有模型能做簡單的搜索工作,但這需要給模型配備合適的工具。
第二層是組織層面,比如公司內部有哪些流程、文檔、已有的知識積累。這些信息模型本身也不知道,需要通過應用層與模型協作,讓模型指導人去調用這些信息。比如一個人和 AI 的對話歷史、個人偏好、背景信息等,這些模型也不具備,必須由應用層來提供。
所以 context 這一層是由應用來提供的,它的質量會對 AI 應用的表現帶來巨大差別。
AI 的目標不只是成為一個問答機器,最終它是要真正幫用戶完成事情。那在做事情的時候,它能調用哪些工具、影響什么結果,這些也是由應用層公司提供的。比如產品提供了哪些公有或私有的 MCP 工具,或者最終 AI 能把它的輸出結果部署在什么環境上。
所以我覺得模型其實只是最底層的那一塊。只是因為在 ChatGPT 剛出來的時候,我們大多數使用場景都是在「問」模型,也就是提取它通過壓縮已有知識獲得的回答。比如問一個事實類的問題,這種情況下確實主要靠模型本身。但當任務更復雜、模型的智力需要與 context、甚至 environment 配合才能發揮作用時,那就是「殼」的價值了。
晚點:所以你覺得這是一個很自然的演化路徑?也沒必要非得強化「我們就是做模型」這件事?
戴雨森:對,模型肯定很重要,但只靠模型本身可能不足以真正釋放出全部的價值。
晚點:一年前大家怎么看 Google?一個失意者?
戴雨森:大家那時候肯定覺得 Google 有點落后,被 OpenAI 搶了風頭,很多人才也選擇出走。但后來 Google 的聯合創始人 Sergey Brin 回歸公司之后,很多事情發生了變化。比如有傳聞說 Google 收購的 Character.ai 創始人 Noam Shazeer 回去后親自改了一個 bug,直接讓模型性能大幅提升。真假不確定,但關鍵人才確實能解決問題。
晚點:所以 Google 能快速追趕,可能不僅是技術,也有組織方式、投入強度的變化?
戴雨森:對,他們對這件事是真的非常重視。我聽說 Gemini 團隊加班也很厲害,原本大家覺得 Google 是養老公司,但現在他們也很拼。
晚點:模型競爭其實激活了很多聰明人,追求的成就感也回來了。
戴雨森:我覺得是的。這幾家公司的創始人都非常重視 AI,現在已經不是「AI 會不會落地」的問題了,而是必須贏。
不管是 Zuckerberg、Sergey Brin,還是 OpenAI 和 Anthropic 的團隊,他們都看到 AGI 已經迫在眉睫,意識到這件事的重要性,愿意花錢、愿意投入資源。
最近 Y Combinator 的創業營也提到,現在做任何公司,都應該以「AGI 兩年內實現」為前提假設。你要思考:假設 AGI 兩年內實現,那你的公司該怎么做?
當然 AGI 到底是什么還有很多爭議,但毫無疑問巨大的變化正在發生,而且是快速發生。現在硅谷學計算機的學生找工作都變難了,因為初級程序員的工作已經被 AI 替代了很多,很多變化是實實在在發生的。
晚點:我們回到你說的三條主線。我們講了推理和編程,現在講工具使用。最近像 Kimi K2 和 Grok 都在訓練階段就加入了使用工具的能力。這是新趨勢嗎?
戴雨森:現在 AI 使用工具主要有兩條路線:
像 MCP 這樣,走 API 接口方式;
通過視覺模擬 AI 操作已有軟件。
這兩種方式都有人在做,現在像 MCP 這樣的生態已經建立起來了,越來越多為 AI 搭建的工具變得可用。又比如 Manus 和 OpenAI 的 Operator 用的是沙盒虛擬機里面的瀏覽器、通過視覺操作瀏覽器等已有的軟件,模擬人類的使用過程,目的是讓 AI 更好地調用已有軟件的功能。
能夠使用人類的工具完成任務,我覺得這是讓 AI 真正變有用非常重要的一件事。
Agent 讓每個人學會當好老板
晚點:其實在 OpenAI 最開始規劃的五個階段里面,第三個階段就是推理之后的 Agent。
戴雨森:對,之前張祥雨有個播客講得特別好,我很認同他的分析。第一個階段是 chatbot,對應 ChatGPT;第二個階段是 reasoning,對應 o 系列模型;第三階段的 Agent 對應的是 Agent-native 模型,但目前好像還沒有真正出現。
在 Agent 的定義中,目標是 AI 自己去尋找的,但目前目標仍由人給定。Agent 是說,我給你一個目標后,它去預測使用工具的序列,選擇什么工具完成任務。它可能還沒做到像給員工完成任務那樣,自己拆分任務和定義目標。
現在 AI Agent 這一類產品還處于非常早期階段。比如 Manus 才剛推出幾個月,但我覺得一年甚至半年后,隨著模型能力提升,這類產品的能力會大幅增強。
我想說的是,不同公司因為資源稟賦不同,解決 Agent 這個問題的方式也會有差異。我們盡量不做預判,不認為我們能夠預先知曉未來。比如 Kimi 的看法是 Model as Agent,通過模型訓練中加入大量端到端的工具使用數據,讓模型本身具備強大的工具調用能力。而同樣是調用閉源模型 API 的產品。Manus 提出了「less structure, more intelligence」,但有時結構化也能提升工作效率。Genspark 就專門做了針對 PPT 場景的 slide 生成功能,引入了一系列優化工作效果的方法。
晚點:這兩種角度都對。對用戶來說,有些場景有大致流程,結果更可控,成本也會更低。
戴雨森:因為用戶要的是最后的結果,而不同的公司想實現這個結果,可能有各種不同的路徑。有的靈活但成本高,有的固定但成本低。所以大家解同一道題,用不同方法都合理。
晚點:你說的最大趨勢無疑還是 Agent?
戴雨森:是 AI 對生產力的提升,想讓 AI 把生產力真的提高,就得讓 AI 承擔更多工作。像 Claude Code、Manus 等 Agent 產品,核心理念是人不做事,AI 做事。
有人說這是類似自動駕駛 L3 級別的產品,人不動方向盤,車自動駕駛。我們發現寫代碼的工程師一開始喜歡 Cursor,因為它還是讓你在熟悉的 IDE 里面寫代碼,但 Manus 發現產品經理用 Cursor 去完成任務不怎么看代碼,只是看右邊的對話框,所以他們把對話框放到主要的位置,做出了一個更加適合非程序員人群使用的 Agent。
隨著模型能力的進步,Claude Code 更極致,用戶不能寫代碼,只能告訴 AI 你要做什么,其他的 AI 去完成。所以 L3 或 Agent 意味著 AI 去作為執行主角,而用戶要學會當 AI 的好老板。
晚點:這對很多人來說挺難,是門檻。AI 做事不滿意,你讓它做幾次都不行。
戴雨森:以前我創業時也這么想,所有事我都親自做。后來發現這不是好管理方式,我應該賦能下屬,讓他們知道我要什么,讓他們有主觀能動性。
以后人類指揮 AI 可能也是這樣,這可能是人類歷史上第一次要培養一個工具。以前培養人很難,大部分人是被培養的,很少有人有能力或機會去培養一個下屬。但現在每個人可能都要學會如何給 AI 下命令,如何培養 AI 去更好完成工作。
晚點:你提到 Manus、Genspark 這類通用 Agent 的用戶群都比較廣泛。你們怎么觀察垂直場景里的 Agent?
戴雨森:通用是因為當前模型能力偏通用,但肯定會逐漸涌現某些垂直場景。
我覺得一個好的產品,最后肯定還是要有清晰的定位,要在某些領域做到絕對的第一名,才能擁有長期價值。或者說我們目標不是追求通用,而是從通用開始,逐漸發展收斂到一些核心場景。
技術革命的早期發展階段,往往大家都在嘗試,也不知道新技術適合做什么,最后看什么效果最好。例如蒸汽機剛被發明時,最開始是用于抽煤礦的水,后來發現用來驅動火車和紡織機更好。蒸汽機也是一個「通用技術」,但最后最大的價值可能來自幾個具體場景。
我覺得現在 coding、做 PPT 這類的 office work、deep research 三者毋庸置疑是已經涌現出來的重要方向。
晚點:有個話題挺有意思。國內大家討論通用產品,覺得這是大公司的必爭之地。但跟國外投資人聊,他們反而對 Super App 的可能性更感興趣,關心怎么打敗 OpenAI 和 Google。
戴雨森:如果你有機會挑戰大公司,那是好事,至少有資格參與奧運會,比不參與強。
很有意思的一件事是,Manus 出現后,有很多人說它沒壁壘,用開源框架一個周末就能搞出來。但現在過了這么多個周末,還沒看到任何一個類似的應用能真正做好的。
我覺得在全球市場,大家對真正的創新還是尊重的,不會直接復制完全一模一樣的產品。可能會借鑒交互或呈現思路,比如 AI 在干活的表現形式,但不會直接像素級復制。在全球化競爭里,先發優勢會帶來很多口碑和傳播優勢,這也是對創新者的建獎勵。
每月 1000 美金的 AI 產品訂閱
晚點:你算過現在一個月在 AI 產品訂閱上花多少錢嗎?
戴雨森:大概接近 1000 美金。Manus 是 200 美金,Genspark 是 200 美金,ChatGPT、Gemini、Grok 這些也都差不多各 200 美金。我買的基本上都是高級方案。
我一直有個理念,新產品就要多試試,很多時候花點錢試一試并不過分。很多 AI 產品的革命之處不能只看報道,得親身去用。當你能看到一個未來的時候,你會產生很多的靈感。
我們三月份就觀察到,Manus 上線后推理用量暴漲,Agent 產品的 token 用量相比 Chatbot 是顯著增長。當時二級市場很多人還在質疑英偉達,覺得哪怕全世界所有人都用 chatbot,推理需求也根本沒那么大,用不了那么多算力。
但其實這就像撥號上網時代,一開始所有人都在聊 QQ,不需要那么多帶寬。但有了寬帶網之后,大家就要在線上看 4K 視頻了。模型能力越強,可以解鎖的場景越多,token 使用就越多。
晚點:2023 年,黃仁勛在英偉達內部講話中說,他們的市值目標是 2 萬億美元。當時英偉達剛剛突破 1 萬億。我們還在討論他這口氣是不是太大。結果今年已經突破 4 萬億了。
戴雨森:他很快可能會到 5 萬億。因為 token 向生產力的轉化趨勢才剛剛開始。
這就像火車開動了,就不會突然又停下來了。我們現在還在不斷發現 AI 新的使用場景。比如說一個工程師原來一天可以寫 100 行代碼,現在有了 Cursor、Claude Code,可能寫的代碼是原來的 10x,能解決更多以前沒想過要解決的問題。又比如有了 ChatGPT 和 Manus,你會問的問題也會變多。
很多以前不知道該問誰的問題,現在可以用 AI 來解決。給用戶帶來的生產力提升,導致用戶更愿意付費。
晚點:目前生產力場景的 token 消耗是非常高的?
戴雨森:生產力可以以 10 倍,100 倍的速度增長。和 AI 閑聊再怎么聊,一天就那么多時間,這是我們以前講的 attention is all you need。如果你要的是用戶注意力,它是有限的,并且是和抖音,Tiktok、小紅書一起去爭奪的注意力。
但在生產力場景,用戶需求的上限很高,可以從問一個問題變成問 100 個問題,需要的算力可以漲 100 倍。
晚點:而且單位時間內 token 消耗的復雜度也在迅速提升,比如我要消費的內容、視覺信息可能也變得更復雜。
戴雨森:在未來你可以問 AI 之前沒想到的非常復雜的問題,我給你舉個很簡單的例子。比如美股二級市場的朋友,在財報季時一天可能要關注五六家公司發業績。凌晨四點起床看財報數據、代入模型做對比、聽電話會議、分析 CEO 的展望,都是他們的日常。
原來他們不可能同時聽多個財報會,只能靠招更多人或挑重點去選擇。但現在有了 AI,雖然目前還不能完全跑通全流程,但 6-12 個月內就有可能讓一個分析師同時覆蓋 50 家股票的財報。
AI 可以幫他們看財報、聽電話會議記筆記、回答事前準備好的問題、總結 CEO 回答、寫報告。這些原來因為「做不到」才沒放到你的工作時間表里的事情現在 AI 能完成了,需求就自然增長了。
就像飛機出現之前,沒有人會說「我今天要飛美國出差」。但飛機一旦存在,新的需求就出現了。AI 也一樣,它讓你開始做那些你原本不會想做的事。
晚點:時間是有限的。但單位時間內娛樂內容的復雜度、感官刺激可能會大幅提升,這也是以前難以想象的。
戴雨森:對,確實難以想象。但我想說的是,生產力的價值是直接可衡量的。比如 AI 幫我賺 100 塊錢,我為它付 1 塊或者 10 塊。
而且我們觀察到一個很有意思的現象:當 AI 按 token 用量計費后,很多人是希望用得更多的。因為它確實在幫你完成工作,比如幫你寫了更多代碼。
這本來就是你自己要做、要花時間花錢雇人做的事,現在 AI 幫你完成了,它就有價值。
硅谷 Acqui-hire 搶人大戰
晚點:關于最近這場「搶人大戰」你有沒有什么看法?
戴雨森:確實最近有很多人被挖走,也有人接到電話但沒去。大量優秀人才被 disruptive(顛覆性)級別的薪資挖走。
這種挖角不管是對被挖團隊,還是 meta 自己原有的團隊,都是非常大的沖擊。在硅谷幾乎所有頂尖公司都在發生類似動蕩。被挖的人所在團隊軍心難免動搖,留下的人也開始質疑:是不是自己也該漲薪?
這種高薪挖人當然是人才價值的體現,但越是頂級人才,也越需要時間和環境來磨合,才能真正形成合力。歷史上失敗的例子也很多,所以對于這些組織來說,這既是機會,也是一場挑戰。
晚點:你覺得搶人競爭算良心嗎?
戴雨森:我覺得這也是體現了創始人的精神,就是他愿意不惜代價去爭取人才。如果花錢能解決的事,我就花錢辦。我覺得這也反映了人才確實很重要。
晚點:壓力主要是在硅谷嗎?不過從另一面看,這也給創業公司提供了不錯的退出機會。
戴雨森:但是這種退出可能不夠大。有的人覺得公司賣個幾億美元就挺好,有人則想做千億美元公司。創業公司也需要更多彈藥去和 meta 這樣的大廠競爭。比如說 Cursor 之前融了很多錢,我們一度還覺得融這么多錢做什么,現在看到他們要面對的是更多錢補貼用戶用 token,招人也要更高成本,所以融資更多很合理。現在競爭無論是補貼還是人才都升級了。頂級人才也有很多選擇,對很多創業公司來說,加入戰局的門檻和水位都在提升。
晚點:硅谷這種人才收購(Acqui-hire)很流行,主要是為了繞過反壟斷限制,也反映了競爭多激烈。
戴雨森:大家都想加快節奏,因為錢太多了。幾家巨頭賬上都有大量現金,這些錢投下去,如果能用錢換時間和競爭優勢,對他們來說就是簡單的事情。
Benchmark 鈍化,突破智能的邊界
晚點:最后這一部分,我想問一些你的感受。從 GPT-3 到現在,已經有兩年半時間了。你目前對什么事情還是特別好奇?
戴雨森:我好奇的事情始終還有很多。首先是如何衡量智能的邊界。
你想,ChatGPT 剛出來的時候,人類還能指出它的回答問題所在。但現在無論是它研究的內容本身還是文筆,普通人類越來越難發現它的缺陷了。當人類智能被逐漸接近的時候,你怎么衡量一個或許比你更聰明、更深度思考、記憶力更強的存在?
關于如何衡量智能,我的好朋友姚順雨他寫了篇文章《下半場》提到,未來 AI 的 benchmark 會越來越重要,現在的 benchmark 已經鈍化,不能準確區分模型差異。比如說 一個 benchmark 得 85 分和 90 分,真的能反映模型的區別嗎?Kimi 的經驗也說明,內部制定好的 benchmark 也很重要,模型訓練,關鍵是如何衡量結果。內部 benchmark 的水平質量往往決定了模型的質量。
所以我覺得如何衡量智能、如何探索智能邊界依然非常重要。現在我們還能勉強說用一用模型,「Vibe Testing」,能感受到模型的能力好壞,但再過幾年,前五名的模型可能都比你聰明的時候,你怎么去評估誰更好?
晚點:所以怎么去衡量智能的邊界?
戴雨森:第二個我想說的是,我一直反復思考生產力這個邏輯。每個人擁有大量生產力之后,對于個人、組織、乃至世界的影響是什么?
對個人來說,超級個人。一個人能做的事情越來越多:從做小貓補光燈這樣的小 app,到開發游戲,甚至到 Sam Altman 預言的「一個人的獨角獸公司」完全可能實現。當年 Instagram 被收購時只有 13 個人,在 AI 時代,13 個人到 3 個人是完全有可能的。
這意味著人和人之間差距會變得很大。當每個人都擁有無限聰明的助手,以及像 Manus 這種可以日夜無休幫你打工的「賽博牛馬」時,有人能很好地利用它創造巨大價值,有人可能沒有產生那么大價值,所以成長速度差異會進一步拉大。
對組織來說,一是小組織可以變得很強大,二是大組織能通過先進技術管理更大、更復雜的業務。比如美團管理幾百萬騎手,業務非常復雜,如果沒有先進互聯網通信和管理技術,根本無法實現。加入 AI 后,大公司的管理人數、業務復雜度和深度都會再升一個臺階。
世界是由各種組織驅動的,組織能力邊界的提升對世界影響巨大。進一步來說,當整體生產力大幅提升,而人與人、組織與組織之間差距變大時,如何在效率和公平間尋求平衡?AI 最初是最聰明的人制作工具給頭部用戶用,但這些精英產生的價值如何反哺普通大眾?即便一個普通人不是特別努力學 AI,我們如何讓 AI 產品越來越易用,讓普通人也能從中獲益?
晚點:AI 還會帶來隱私暴露和虛假信息泛濫,讓真實界限變得模糊。
戴雨森:對,現在你很難區分什么是真實的文章。我現在還能讀出 DeepSeek 的味道,但一年后可能分辨不出,或者說,可能已經有很多 AI 寫的文章我已經分辨不出來了,我能分辨出來的只是那些還偽裝得不夠好的。大家都知道 AI 會引用虛假內容,但關鍵什么是虛假呢?真假的界限也越來越模糊了。
我一直在想,人類最大的限制是什么?我這邊覺得是大腦的功率,大腦功率大約 20 瓦,人類智能的上限就是這么多。而 AI 可以很快接近甚至突破這個上限。智能越多,我們用它做什么,人與 AI 的角色分工如何,這些都是我們很快要面對和調整的問題。
有時候我覺得有點可怕,因為大的變化已經到來,只是大家還在逐漸感受到它。比如對程序員影響特別直接,普通初級程序員如果不用 AI,未來兩年后找到工作會非常困難。但一年的時間人是很難做出改變的。而更多的職業可能也會在很短的時間內受到極大的沖擊。
Talk is cheap, Show me the product
晚點:你會對什么事感到疲倦?
戴雨森:我覺得第一個疲倦的是過度營銷。過去幾年有一個趨勢,就是很多產品在過度營銷,各種「震驚體」,但好的產品比如說 Manus,幾乎沒花錢營銷,但大家誤以為它花了很多錢。
之前 AI 的進步主要是模型的進步,普通用戶還無法在產品中體驗,因此研究員和媒體擁有很大的解釋權。但現在模型已經開始轉化成應用了。那時候我在即刻發了一條說:「Talk is cheap, show me your product.」
現在很多 AI 模型的核心能力最終都要轉化成產品,用戶能真正用得起來,AI 才有生命力。很多講故事、炒作的公司,不如專注做好產品。我們看到現在發展好的 AI 公司大多做到了這一點,拿出真正對客戶有價值的產品。
晚點:你今年內想驗證的是什么問題?
戴雨森:一個是 AI L3 級別的 Agent 應用能不能快速達到完成實際工作的程度。比如 Manus 我們都在用,用戶也在付費,但有時一個任務只能完成七八十分,還需人補充到 100 分。Claude Code 相比之前的 coding agent,逐漸能做到一次完成,不用修改就能上線。
未來幾個月到年底,我相信 Agent 的能力還會有很大提升。到那時,可能你給 AI 一條指令,它就能埋頭干完,甚至一次就干好了。
晚點:我現在用 AI 感覺是得刻意多用它。因為給它比較復雜的任務時,它完成得不完美。
戴雨森:這是普遍現象。好的 AI 產品一定是為未來的模型設計的。Cursor 上線兩三年了,但直到 Sonnet 3.5 出來的時候才開始火,等 3.7 出來后才爆發增長。
Manus 也是一樣,剛上線時很多任務其實也做得不好,但 6 個月、12 個月后,新一代模型會讓它表現更好。所以你要為未來設計,而不是為當下就能獲得的模型設計。
晚點:這對普通用戶可能反直覺,但我理解,這是快速發展階段。普及到主流用戶時,大家仍追求開箱即用。
戴雨森:其實也不一定,比如我們之前發的《Manus 對談 YouTube 聯創陳士駿》, Youtube 的聯合創始人 Steve 他說 YouTube 出來時是為未來寬帶設計的, 2005 年那時候美國剛開始普及寬帶,因此一開始的體驗并不是那么好。同樣短視頻平臺如抖音快手上線時,也是為一兩年后的智能手機和 4G 普及設計的。AI 也是這樣,你要永遠提前走一步,喬布斯曾經說過「要去冰球將會前往的地方」。
晚點:所以你想驗證的是,到年底看產品能否高度自動化完成任務,不再需要人參與?
戴雨森:比如現在 Agent 完成任務的成功率可能是 20%,能不能到 70-80%?這會讓前沿用戶對工作的定義和 AI 使用方式發生巨大變化。
另外我好奇的是,隨著用戶使用 AI 產品的變多,記憶會帶來多大變化。AI 應用長期壁壘是什么?我覺得很重要的是記憶和個性化。現在記憶個性化對結果影響有限,但長期來看,我們希望它像員工或助手,隨著使用時長增加,越來越了解你,變得不可替代。這是我們想看到的進步。
晚點:這個進步不能光靠模型是嗎?記憶需要不斷互動,給 AI 個人層面上下文。
戴雨森:一方面是在線學習(online learning),模型在使用中學習。另一方面需要你給它更多數據、文件、上下文,應用設計非常重要。模型和應用要協同合作。
我覺得我們對未來創新要有更多期待和包容,對中國團隊的創新和發展能力要更有信心和支持。
創業新浪潮的新觀察
晚點:你們現在特別關注的團隊是什么類型的人?還有哪些地方有新創始人在出現?
戴雨森:今年我們看到,想出來創業的人多了很多。一兩年前大家還在相信未來應用會落地,現在已經看到有 Manus 這個例子,大家堆的都是金玉在前。所以大家肯定會想,「那我也許也可以」,這一定是一個更多的過程。我們看到很多不管是研究員,還是大廠里的年輕人,都蠢蠢欲動。
晚點:你最近在看什么比較好玩的書,或者有沒有作品想分享?
戴雨森:我想推薦《33 號遠征隊》。這是一個游戲,由一家法國創業公司開發。故事設定在一個虛擬世界,有一個神「繪母」,每年在天邊的一個石頭上寫下一個數字,這塊石頭叫 Monolith。
她從一百開始倒計時,每寫一個數字,對應年齡達到那個數字的人就會死去,全部消失。第一年是 100,第二年是 99,如此類推,一波一波的人死去。于是人類開始反抗,每年組織剩余年齡差一歲的人組成遠征隊,想挑戰并打破這個魔咒,但一直沒有成功。今年繪母寫下了 33,33 歲的人將在明年此刻死去,于是第 33 號遠征隊出發了。
前幾天是 Manus 創始人肖弘的 33 歲生日,我就推薦他玩這個游戲。這個游戲講述了一個滿 33 歲的人如何出海挑戰天命的故事。游戲團隊也是 33 個人,是一個創業公司開發的,創始人曾在育碧(Ubisoft)工作。他在那里覺得無聊,于是出來做了這款游戲。
《黑神話·悟空》是中國的大 IP,結合中國的文化積淀和先進技術制作的精品作品。《33 號遠征隊》也是一個法國浪漫主義設定,藝術與先進技術結合帶來的優秀作品,它的情節,畫面,音樂等都非常非常棒,這是我今年非常喜歡玩的游戲,我認為非常有希望沖擊年度游戲。
題圖真格基金





京公網安備 11011402013531號