![]()
與常駐硅谷的 AGI House 合伙人聊美國 “Agent 工具箱” 實踐。
采訪丨程曼祺
整理、撰文丨姚一楠
就在 10 月內,OpenAI、Google、Anthropic 三家最強模型公司都在 Agent 開發工具上有了新動作。
OpenAI 在 10 月 6 日的開發者日上推出 AgentKit 等一系列工具;兩天后,Google 發布 Gemini CLI(命令行交互)Extensions,成為 Gemini 開發生態的最新一環;又一周后(10 月 16 日),Claude 也新推出 Claude Skills,讓用戶不用編程,就能通過 “文件夾系統” 簡單地定義工作流。
不管是幫助開發者構建獨立 AI 或 Agent 產品,還是試圖讓用戶直接在自家 Chatbot 產品里定制更復雜的應用,這些紛繁的 Agent 工具都指向一個自然的需求:當模型一次次升級,怎么用好這些新能力成為重要課題。
核心模型廠商外,“Agent 工具箱” 也已成為硅谷的一個創業機會。今年夏天,開源 AI 框架公司 LangChain 融資 1 億美元,成為新獨角獸;語音模型提供商 ElevenLabs 賣員工老股的最新估值已來到 66 億美元;OpenAI 也在 9 月以 11 億美元全股收購做 ABtest 和 AI 應用評估(evals)工具的,其創始人維賈耶·拉吉(Vijaye Raji)出任 OpenAI 應用業務線 CTO(CTO of Applications)。
本期,我們邀請了兩位常駐硅谷的朋友,AGI house 的 Henry Yin 和 Naomi Xia,來一起聊 Agent 工具鏈(Agentic Tooling)的發展趨勢,和這個領域在美國的創業實踐。
Henry Yin 畢業于清華姚班,后前往伯克利攻讀博士,期間退學創辦思碼逸(Merico),用 AI 提升開發者效率,長期關注 Agent 工具鏈與應用層創新。他目前也在籌備一個新的社區型基金 MoE Capital (Mixture of Experts),希望和一群頂尖 AI 研究者和產品經理一起探索下一代 AI 創業與投資模式。
Henry 梳理了 Agent 工具鏈領域的 “6 次進化”。在他看來, Agent 工具的發展始終圍繞模型能力的躍遷,ChatGPT 發布催生 LangChain 框架,Anthropic 提出 MCP 協議為 Composio 轉型提供抓手,GPT-4o 推出高級語音模式為 LiveKit 帶來爆發式增長。模型升級的間隔越來越短,機會涌現的節奏也在加快。
Naomi Xia 畢業于沃頓商學院,曾任職于摩根大通 AI 投融資團隊,現在負責 AGI House 早期投資,已投資的 20 多家公司就有上文提及的 Composio 和 Livekit。
Naomi 分享了 AGI House 投資的邏輯。在她看來,過往全球開發者工具市場規模約 200 到 300 億美元,AI 可能把這個市場規模推高十倍。
OpenAI 踏出邁向平臺一步,通過 AgentKit 把好武功帶給開發者
晚點:10 月 6 日 OpenAI 舉辦第三屆開發者日(DevDay),有不少更新。我們可以先從其中和 Agent(智能體)相關的 AgentKit 聊起,它的整體產品思路是怎樣的,有哪些亮點?
Henry:這次的 AgentKit 是 OpenAI 自己練好了一身武功,現在開放給開發者。它幾乎涵蓋了整個 Agent 開發周期。
首先是構建,這次新推出了 Agent Builder —— 一個可視化工具,通過拖拽就能快速搭建 Agent。然后是前端部署,OpenAI 推出了 ChatKit,允許開發者在自己的應用中快速嵌入類似 ChatGPT 的聊天界面,與 OpenAI 的模型實時交互。最后是 Agent 上線后持續維護、優化,OpenAI 提供了監控、評估和改進的一套工具,“New evals”(evals 指 evaluation,即評估),新增 datasets(數據集管理)、自動 prompt 優化(自動提示詞優化)、Trace grading(痕跡分級)、以及 reinforcement fine tuning(強化微調)等功能。整個流程一條龍打通。
其中評估這部分,我本來覺得是某些 Agent 公司的護城河,但現在看這些能力正在被標準化,OpenAI 自己也做了。
晚點:可以解釋下什么是 Trace grading ?
Henry:所謂 Trace,就是一次完整的用戶與 Agent 交互流程。比如用戶讓 Booking.com 幫他訂機票,從輸入出發地、日期,到訂票成功或失敗結束,這是一個 Trace。
Trace grading 則是通過寫 grading(評價函數),判斷整個交互中哪些做得好、哪些不好,并給出標簽或評分。評分可以手動打,也可以讓 LLM 來做評審。
晚點:Agent Builder 這部分是不是有點像 Dify 或字節的 Coze?它是通過 workflow 把組件串成 Agent?
Henry:非常類似。在他們展示的一個 demo 里就是第一步先做提示詞分類,然后接一個 if/else 分支。是人手寫工作流。
所以這次也有一個批評,認為 Agent Builder 的思路與 AGI 有分歧。大部分人都認同,最后的終局是高度自動化的、能執行多步任務、持續使用工具的智能體。這需要把現在人工手寫的流程吃到模型里。而 Agent Builder 是先畫流程圖,兩者路徑幾乎相反。
整個 AgentKit 的思路,更多還是現在就能在企業里落地,這對追求研究者來說并不性感。比如我身邊的很多開發者,平時大多用 Anthropic 的 Claude Code 或 OpenAI 的 Codex 這類工具來構建 Agent,所以拖拉拽式的形式對他們的工作流影響不大。
但對大客戶來說,AgentKit 安全、好理解、能落地。所以我覺得它能賣單。
晚點:這次除了 AgentKit,一個重磅發布是 Apps in ChatGPT 和 Apps SDK,開發者日的第一項發布就是這個。會后 ChatGPT 負責人 Nick Turley 也直接告訴媒體,ChatGPT 有潛力變成個操作系統。
Henry:把 ChatGPT 當做操作系統,這已經不是第一次炒作了。第一次是兩年前的 CustomGPTs,但最終多數 GPTs 只是帶 logo 的一個 prompt 模板,因為當時去調外部數據很麻煩,也不能用第三方服務,也不能存儲狀態、發送通知或運行工作流。
晚點:你覺得這次會和 GPTs 不一樣。
Henry:有很大變化。現在有了 AgentKit 和 Apps SDK,它就類似 iOS 的開發 SDK,終于可以調用外部工具了,還補上了 UI 組件,這是一個真正的平臺,也有一套更完整的工具箱,而不只是一個 prompt 包裝。
更重要的是開發者的分發紅利。現在 ChatGPT 官方公布的周活有 8 億。只要你在 ChatGPT 里做出一個好應用,立刻能觸達大量用戶,冷啟動問題會小很多。
還有個意義是信任背書。大企業在意安全、合規,更愿意從 ChatGPT 等更大的平臺引入服務。這能幫開發者進入大型企業采購流程。
相比兩年前,OpenAI 這次也找了更多合作伙伴,比如 Canva、Booking.com 等,展示了更扎實的的初始應用。
晚點:有什么你印象比較深的初始應用嗎?
Henry:Canva 的體驗就好了不少。GPTs 時的 Canva 只能照指令給你生一張圖;現在的 Canva in ChatGPT,會先經過授權后,和你的 Canva 賬號綁定,把你已有的設計信息用到新任務里。
其實兩年前 Canva 已屬于高質量 GPTs 了,但當時一般開發者達不到這個效果。這次工具鏈更成熟,更多開發者有可能做出和首發合作伙伴效果相似的應用。
晚點:其實 2024 年,Anthropic 搶走了不少 OpenAI 的 to B 份額,之前一段時間,OpenAI 給外界印象也是在 to C 超級應用上更激進。
Herny:我覺得 OpenAI 不會放棄 to B。第一,用戶規模上 ChatGPT 周活 8 億,已經是 “操作系統級” 的流量入口;第二,生態壓力,Anthropic、Google 都在猛推企業側和開發者側,OpenAI 不可能只靠 to C;同時,從模型能力上,B 端數據和使用偏好對提升模型也很重要;現在很多 C 端用戶也是在生產力場景里使用 ChatGPT ,B 端數據的反饋也能反哺這塊。
從團隊變化也能看出來,比如他們新成立了 “The Future of Work” 的團隊,專門加速 AI 在各種商業場景的落地——像客服、合同審核、數據分析、商業線索轉化等。
OpenAI 在自己的頻道上還發了一系列 “OpenAI on OpenAI” 的視頻,基本覆蓋了我剛才提到的那些場景。
比如說商業線索轉化,OpenAI 現在每月大概能獲得 1.3 萬條銷售線索,以前人力最多能對其中約 1000 條做個性化回復,有了 AI 后效率顯著提升。
再比如,現在 ChatGPT 的客服基本由 AI 驅動。這個 AI 會與內部知識庫、政策庫交互,為用戶提供服務;服務過程中持續做評估與改進。Agent 的 “痕跡分級(Trace grading)” 結果,會反哺知識庫和政策庫。
OpenAI 把 Agent 反復做下來,工具被打磨得更好,最后沉淀成了 AgentKit,再分享給開發者。
晚點:OpenAI 現在同時投入這么多方向,這會分散它的注意力,影響追求 AGI 的速度嗎?
Henry:Sam 現在的想法可能是:我全都要。OpenAI 擴張速度也很快,已經好幾千人了,人多了就可能分叉;而且為了支撐越來越高的估值,OpenAI 商業化和營收壓力也在不斷上升。
晚點:OpenAI 裹挾了這么多投資,又和微軟、英偉達、AMD、英特爾、甲骨文等美國一批最大的科技公司相互采購,一種觀點認為,如此糾纏的利益,已讓它大而不能倒。
Henry:它現在可能確實是 too big to fail(大而不能倒),但 Sam 的野心不止于 5000 億美元的估值。
晚點:這次發布后,你身邊的創業者感受到的機會和壓力分別是什么?
Henry:大多數人看到的還是機會。新平臺把創業者和開發者和用戶拉得更近。
壓力有兩個方面:
- 一是數據與留存的不對稱。現在 app 的上下文與數據多托管在平臺方,初創團隊拿到的只是有限的上下文調用,而不是完整的用戶行為或分析數據。這樣很難真正建立用戶關系、優化留存。換句話說,就是在別人家的地基上建房,根基不穩。
- 二是平臺自己下場做的可能性。像 OpenAI 掌握完整的數據和用戶對話記錄,所以平臺上那些看起來很有潛力的機會,也有可能被 OpenAI 直接吃掉。
晚點:上次和 Pokee.AI 創始人 Bill Zhu 聊 Google 時,他有個類似的推演:Google 做開發者生態,一旦看到一些方向的潛力,可能自己下場做。
Henry:大家對 Google 反而沒那么擔心。Google 做應用的速度追不上初創公司;但 OpenAI 節奏快得多。
晚點:本身應用超強,是不是有可能是 OpenAI 做開發者生態的一個不利因素?
Henry:關鍵看 OpenAI 怎么定位。現在 AgentKit 只能用 OpenAI 的模型,是在評估的環節可以用到第三方的模型。
如果 OpenAI 真把 App SDK 和 GPT 形式的應用當成主要商業模式,就應該把自己定位成平臺,在 Agent 構建過程中放開工具和模型選擇。但目前還在試驗階段。
晚點:你覺得這種大模型操作系統或者說 AI 應用開發平臺的機會最后能容納幾個玩家?
Herny:看流量入口有幾個。現在最大的是 Gemini 和 ChatGPT。前幾天的數據是,Gemini 的總用戶量已超過 ChatGPT,但這是算了全平臺用戶量,比如在 Gmail 里打開了 Gemini 也會被計入。不過不管怎樣,Gemini 的追趕勢頭很猛。
在做開發者工具上,兩邊都比較強:Gemini AI Studio 的功能越來越全,OpenAI 這邊也剛發了一堆面向 Agent 開發的能力。
從 LangChain 到 Operator,Agentic Tooling 的 6 次進化
晚點:你們最近關注智能體工具鏈(Agentic tooling)的機會,簡單來說,這都包含什么?
Henry:Agentic tooling 就是構建虛擬數字人所需的工具和身體部件。
AGI 的一種定義是虛擬數字人:過去計算機是工具,人去適應機器;現在計算機會更像人,來適應我們。交互感受更加自然,從 “人機” 走向 “人人 “。要實現這一點,只有聰明的大腦不夠,還要能聽、能說、能行動的身體。
對應到具體部件,骨架就是 Agent 框架,代表公司是 LangChain,負責 Agent 能力協調調度;左右手是工具與瀏覽,左手是 MCP 協議,右手是 Browser Use,允許 Agent 像人一樣用瀏覽器獲取信息、操作交互;眼、耳、口這些器官是 Agent 感知部件,例如 ElevenLabs 做高質量語音合成,是 “嘴巴”,LiveKit 提供實時音視頻基礎設施,是 “眼睛和耳朵”;數字人還需要教練來持續評估表現、監督與改進,于是有了 Braintrust、Galileo 等公司專注 Agent 評測與可靠性保障。
Naomi:最近這個領域剛好有三個標志性事件。
第一是 ElevenLabs 員工將金額約 1 億美元的老股以 66 億美元估值賣給投資人。這時候距離 C 輪只有 9 個月,公司估值已翻倍。 ElevenLabs 做的是 AI 語音合成,增長和商業化進展都很快。
第二是 LangChain 剛剛以估值 11 億美元敲定一筆約 1 億美元的新融資,IVP 領投。這說明基金還在加碼工具鏈這層的開發者基礎設施。
第三是 OpenAI 用 11 億美元全股并購 Statsig。Statsig 做的是 AB 測試、功能逐步發布和數據指標閉環。直白說,就是評估模型效果,按節奏擴大流量。OpenAI 把這塊從外掛工具變成了內置組件。
把這三件事放在一起看,可以看到清晰的節奏:一頭是 Agentic tooling 的大規模落地,一頭是工具鏈核心組件持續獲資本加注,同時巨頭在做戰略整合。
晚點:從這輪 AI 熱潮以來,工具層已出現很多輪變化,從最開始的提示詞工程、RAG 再到上下文工程,你會怎么總結這個變化脈絡?
Henry:我覺得 Agent 工具的發展始終圍繞模型能力的躍遷。借用虛擬數字人的比喻,過去兩三年我們見證 “大腦” 一再升級;每次升級都會暴露 “身體” 的短板,隨之催生一波新工具來補齊。大致經歷了六次主要升級。
第一次升級在 2022 年底,ChatGPT 和 GPT-3.5 發布。全球第一次直觀感受到 LLM 的力量,大家都想拿它做應用。很快發現僅靠 “會聊天” 的腦子不夠:還需要用到外部數據、管理上下文、把多個 LLM 調用編排起來處理復雜任務。于是 LangChain 等框架出現,提供腳手架讓開發者可以更快構建應用。那會兒大家還不叫它 “Agent”,不過很快就有了。
第二次升級大約在 2023 年 6 月,OpenAI 首次在 API 里官方支持 function calling(工具使用),LLM 開始能按上下文需要調用外圍工具。從那時起,越來越多人專門為 LLM 寫工具。為了寫一個像樣的 Agent,八九成精力都花在 “寫好工具” 上。
第二次升級的另一個關鍵節點是 2024 年 11 月,Anthropic 發布 MCP 協議,讓工具在不同模型間更易復用。不少工具提供方順勢轉成 MCP Server 提供商。
第三次升級在語音。 2024 年 5 月,GPT-4o 的 Advanced Voice 模式推出,第一次像 “人” 的高質量語音交互雛形出現,也帶火了實時音視頻傳輸需求。LiveKit 因為是 4o 背后的基礎設施,迎來一波爆發式增長。
第四次升級在 coding。2024 年 Claude 3.5 Sonnet 的發布和迭代帶來了 Cursor 的成功。AI 寫代碼能力大幅增強,連數據分析都能用 “寫代碼” 來完成,于是對 “安全執行代碼” 的沙盒環境需求暴漲,產生了 E2B、Daytona 這樣的代表公司。
第五次升級在推理能力的突破。 2024 年 9 月 OpenAI 發布 o1 preview。推理能力提升后,Agent 能根據任務自行規劃步驟與選擇工具,由此催生兩類工具:(1)OpenAI、Fireworks 提供的強化學習微調工具,大家用它在模型外通過 RL 增強 Agent 能力;(2)Braintrust、Galileo 提供的評估與監督工具,復雜任務更需要它。
第六次升級是 Computer use 和 Browser Use 能力的出現。 2024 年 10 月,Anthropic 率先發布 Computer use 模型,隨后 OpenAI 推出 Operator。Agent 終于能像人一樣用瀏覽器完成任務,隨之形成一條完整的瀏覽器生態:底層是云端瀏覽器基礎設施(Browserbase、Anchor Browser),上層是直接給開發者的自然語言 API(例如 “幫我訂個外賣”)。
晚點:工具調用方面,最早 OpenAI 在 2023 年 6 月 推出 function calling,現在更主流的協議卻是 Anthropic 發起的 MCP。這是為什么?
Henry:Claude 在 “怎么把 tool use 做強” 上花了很多時間,過程中沉淀出 MCP。OpenAI 雖然先到了這個,但之前沒有 Anthropic 在這上面花的精力多。
晚點:下一次進化會是什么?
Henry:很難預測。相對確定的是,所有大模型廠商都會繼續加注 Agent 能力:一是推理,二是工具使用,三是語音。另外,多模態會更深融合,比如最近的 “Nano Banana” 就是圖片模型和大語言模型結合。
用 Agent 做的工具已經能搭建出高質量的 Agent
晚點:剛才你梳理了 Agentic tool 的發展脈絡,這個領域也出現了很多第三方創業公司,你具體會關注什么方向,有哪些公司?
Henry:首先,Agent 變強后,配套工具的質量必須提升,能支持更細、更復雜的操作。現在很多 MCP Server 還是偏 read-only,場景上用 Reddit、Twitter 的 MCP Server 做深度研究較多;但隨著模型推理和調用工具能力變強,Agent 可能去做帶風險的 “寫”。Naomi 最近投了 Composio ,可以分享一下。
Naomi:Composio 是 MCP 的集成商,能提供高質量 MCP Server。它不止能調工具,更多保證任務的可靠執行,等于給 Agent 提供了一套更完整的操作系統。
晚點:MCP Server 集成商具體是做什么的?
Naomi:MCP Server 有點像 API 接口,你調用 MCP Server 就像在集市上選擇工具組裝起來。Composio 可以幫你搭建 MCP Server,你只需要點幾下就可以調用你希望喚起的智能體。
Henry:我補充一下,Composio 提供幾百個高質量的 MCP Server 供選擇。
Composio 在產品層面分兩部分:一部分是平臺,開發者通過編程把平臺上的 MCP Server 接到自己的 Agent;另一部分是偏 prosumer (消費者 + 生產者)的產品叫 Rube,它最近增長很快,因為解決了在 Cursor 中只能同時調用 3 個 MCP Server 這個痛點。 Rube 提供了 metaMCP Server,可以根據任務自動調用正確的 MCP Server,“one MCP Server to rule them all”。
晚點:一個 MCP Server 里能有多少工具,現在受什么限制?
Henry:每個 Server 可以接多種工具,具體數量取決于設計者取舍和產品復雜度。比如做 Gmail 的 MCP Server,如果想覆蓋 Gmail 大部分功能,工具就會很多。但功能接近的工具會讓模型困惑,不知道該調用哪個,就容易出錯。
晚點:你們最初是怎么注意到 Composio 的?
Naomi:在 AGI House 我們經常辦大型黑客活動,開發者做 AI Agent 必須調用多種工具,我們就在想能不能做一個集合型 Agent,在執行任務時可以同時接入多個 MCP 服務器。來自社區的一線反饋說,Composio 比較可靠,調用這些工具很順滑。我們也很喜歡他們團隊這種堅毅以及高效行動的風格。
Naomi:2023 年 7 月 Composio 在印度成立,最初想做 “自動生成集成代碼” 的智能體,但代碼準確度不夠。他們發現原因是模型調用工具的過程不穩定,于是轉向搭建智能體的技能層——把通用工具封裝成可直接調用的技能。
團隊在資源匱乏的印度起步,卻憑借高質量技術演示和社區驅動迅速出圈,創始人親自下場在 Reddit、Discord 與開發者共創迭代。憑借這種強執行力與技術直覺,他們最終拿到光速創投(LSVP)領投的 A 輪投資。2024 年 6 月產品上線時已積累 ClickUp、Gleam 等早期客戶。
Henry:最有意思的是,Composio 一開始做 Agent,后來轉成 Agentic tooling。之所以能成為 tooling 公司,是因為它把 Agent 做得好。
晚點:既然 Agent 做得好,為什么要轉向工具鏈?
Henry:他現在還在做 Agent,只是業務拓展到了 Agentic tooling。最初他們在印度的 Agent 質量高就是因為在用 Agent 自動寫 Server。他們在 MCP 出來前看到做工具集成調用的機會開始轉向,MCP 發布后產品迎來一波爆發。
Naomi:Composio 本質是一家 Agent 公司。平臺上的 MCP Server 基本都由自家 AI Agent 自動寫代碼完成。他不只是賣工具,更用自身業務的數據做飛輪,持續生成和優化工具。它的壁壘不僅在平臺有多少工具,還在大規模自動化集成、處理、優化海量數據的能力。
晚點:這具體指什么?
Henry:每次用戶與 Composio 交互,都會創建一個 Agent 會話(session)。一次會話里,一個任務可能要調用多個工具。整個過程都會被記錄成日志(log),再由另一個 Agent 審查:調用成功還是失敗?失敗的話原因是什么,成功的話有沒有優化空間?
Composio 會有專門的 Agent 分析每個會話日志,自動寫出改進的 Pull Request,直接改進 MCP 服務器,整條鏈路都是自動化的。
編者注:Pull Request(PR),是指開源軟件項目中,貢獻者提交代碼更改到代碼庫的請求。該術語主要用于 GitHub 等網站。
晚點:Anthropic 為何不自己做 MCP Market?就像蘋果做 App Store。
Naomi:因為這事不增強它的護城河。Anthropic 是大模型公司,優勢在模型輸出效果和安全性,把人力投到第三方 API 的維護只會分散資源。
晚點:Agent 在瀏覽器、手機上的執行成功率并不高,你們覺得 MCP 生態會怎么發展?
Henry:先說可靠性。桌面端常用的基準測試是 OSWorld,瀏覽器端是 WebArena,最好的模型在這些基準上成功率也就 60%~70%。這種成功率很多場景不可用,比如美國醫療建檔。
但面向長尾場景,很多服務和網站不在 MCP 覆蓋范圍,Browser Use 是有價值的。比如很多日本的精品酒店沒接入 OTA(online Travel Agency,在線旅行社),有人用瀏覽器操作抓取空房日志,把信息組合后提供給搜索引擎,用戶就能搜到這些酒店。
晚點:在移動生態里應用間相對封閉,長期他們會愿意融入 MCP 生態嗎?
Henry:有觀點認為,ChatGPT 終局是 WeChatGPT。AI 越來越強,越像數字人。而我們辦事本質是和人溝通。等到 ChatGPT 把所有事裝進一個應用里,所有服務提供方都會被迫為大模型開放交互接口。
美國頂尖實驗室都在加碼 AI 語音,但有時 AI 不像人反而更好
晚點:除了 Broswer Use 和 Phone Use,智能體工具領域還有哪些你關注的方向?
Henry:我們還很看好語音。現在全球每天約 100 億次通話,很大一部分是商業通話,比如客服,面向企業服務的 AI 機會很大;第二類是個人助理或情感陪伴,增長也很快。
這塊我們很關注 LiveKit。LiveKit 成立于疫情期,一開始服務遠程辦公需求,基于 WebRTC 的實時音視頻傳輸,與 AI 關系不大。第一次 AI 方向的爆發來自 GPT-4o 把 LiveKit 用作語音傳輸層,之后它從底層往上豐富產品,現在用它的 SDK 能方便地搭建語音 Agent 。
現在 LiveKit 每天支撐約 2000 萬次通話,一年前數據是 100 萬,年增 20 倍。企業層面,OpenAI 、Character.AI 以及 Grok 的語音層都由 LiveKit 驅動,全美最大的 CRM 公司 Salesforce 馬上要把客服智能體部署在 LiveKit 平臺;公共服務層面,LiveKit 可以支持美國 911 約 25% 的呼叫,通過直播現場讓接線員了解情況,還能轉接心肺復蘇的教練,大概每周能多救回一條人命。這是我們決定投資的關鍵。國內 LiveKit 用得還不多,但增長也很快。
晚點: LiveKit 上現在用得最多的語音模型來自哪個廠商?
Henry:OpenAI、ElevenLabs、Cartesia 的模型都有接入。LiveKit 平臺可以支持兩種范式的模型:一種是級聯式語音智能體(Cascade Voice Agent):先語音轉文本(STT),再過大模型,最后文本轉語音(TTS);另一種是語音到語音,比如 OpenAI 的 GPT 語音輸入,語音輸出。
晚點:兩種范式都有用戶在用嗎?前一種在某些場景綜合成本是不是更好?
Henry:我們判斷終局會是 “語音到語音”,因為模型能識別情緒這種上下文呈現不了的細節。但現在很多人仍用 “級聯式”(語音→文本→大模型→文本→語音),原因有兩點:一是更可控,語音轉成文本后能寫入保護和規則判斷;二是并非所有場景都需要像人,比如醫院客服只要按要求提供信息,AI 不那么像人反而更好。
晚點:我們之前聊過,美國一些頂尖 AI 實驗室都在加大對語音能力的投入。這釋放了什么信號?
Henry:我有兩個觀察。
一個是現在有公司專門給它們提供語音數據,成長很快、融資不錯。比如 David AI,最近幾個月拿了約 2500 萬美元的 C 輪。
另外,OpenAI 上周發布了 GPT 實時(Real-Time GPT)API 的正式版,相比去年 10 月的 1.0 版本主要有兩點改進:一是更像人了,說話的語調、表達的豐富度更自然,對 “更溫情 / 更職業化” 等指令的執行更到位;二是能更好理解笑聲、情緒,也能在說到一半時順暢切換語種。
晚點: Anthropic 在多模態上的投入更少,是不是沒在參與這方面競爭?
Henry:我覺得 Anthropic 已經全力押注編程了。留在語音牌桌上還是 Grok、OpenAI、Google 這些大玩家。
Agent 的四種記憶,和 Letta 的全新記憶方案
晚點:你之前提到,記憶是 Agentic tooling 的重要方向。這個領域可能有機會,一些公司也有動作,能講講嗎?
Henry:我們可以從四類記憶說起:它們是什么,以及如何幫助 Agent 更好地完成任務。
第一類,情境記憶。比如客服機器人記得上周和你聊過,嘗試過方案 X。好處是避免重復操作,保持對話連續性。
第二類,流程記憶。比如 Agent 記得上周部署在第三步失敗,它就會避免重復錯誤,改走有效路徑。這類記憶適用于企業搭建智能體工作流。
第三類,存儲事實的知識記憶。比如 Agent 給用戶購物時能去折扣規則庫里檢索可用折扣,不會編出不存在的折扣。規則庫也算記憶的一部分。
第四類,角色記憶或人格記憶。它記錄一套人格或風格設定,適用于情感陪伴。比如 AI 男友女友要保持既定的交流風格,不能出戲。
這方面我們接觸最多、增速也很快的一家叫 Letta,由兩位伯克利的博士畢業后創立,幫 Agent 開發者做 “有狀態的智能體(State for Agent)”。
他們提出個有意思的概念:睡眠時計算(Sleep-time Compute)。大家熟悉的是推理時計算(Test-time Compute)——推理步驟中多消耗些 token 輸出效果更好。Letta 不是在推理時燒 token,而是在系統空閑時做整理。就像白天開了很多會,晚上用睡覺時間回放處理,把信息沉淀成學習內容和洞見。
晚點:用戶會不會不愿把數據給 Letta?自動駕駛里有先例:國內自動駕駛的初創公司優化算法需要司機數據,但車企是大客戶,出于競爭和數據敏感性不愿給,結果一家一家去談很麻煩。
Henry:我覺得類似情景不太會出現。現在的 Agent 應用市場更分散、更多樣,很多創業公司體量小,商業話語權不強。
晚點:Agent 公司不會自己做這塊嗎?
Henry:早期沒有最優標準,大家都在摸索,于是 “八仙過海”。等弄清楚該用哪類記憶、怎么用最好,標準化產品會出現。像 Letta 把臟活累活包了,開發者就能把精力放在核心競爭力上。
晚點:OpenAI 今年不是也上線了記憶功能?
Henry:OpenAI 的記憶有了明顯改進。舉個例子——我說 “今天生日我媽媽給我做了我最喜歡的甜點提拉米蘇。”
以前是把整句直接塞進 ChatGPT 的記憶,這有兩個問題:不知道 “我” 是誰,也不知道生日是多少。
現在會拆成結構化的幾條:(1)Henry 的生日是 9 月 18 日;(2)Henry 喜歡提拉米蘇;(3)在生日當天,Henry 的媽媽給他做了他喜歡的提拉米蘇。這樣后續查詢更好用。
晚點:大模型能力進化后能自己搞定記憶能力嗎?
Henry:大模型的演進和 “記憶” 是兩條線。模型層與記憶最相關的是上下文會變長,但上下文不是免費的午餐,越長成本越貴,性能還可能下滑。
晚點:今年被很多 Agent 公司關注的上下文工程(context engineering)和記憶的關系是什么?
Henry:記憶最終要用,必須塞進上下文,所以它屬于上下文工程的一部分。
上下文工程的本質,是決定哪些信息該進上下文。它涉及兩個循環:本次生成時,內循環決定哪些信息進入上下文;從長期看,外循環決定如何提升把 “對的信息” 塞進上下文的能力。
相比之下,長期記憶更像 “工具層”,不是模型本體,而是大模型的外接硬盤。
所有人都覺得 “評估” 重要,但都做得不夠好
晚點:想展開聊聊你剛提到的 “評估”,最近 OpenAI 以 11 億美元收購了 Statsig。標準化的第三方評估工具會有創業機會嗎?
Henry:有趣的是,幾乎所有人都認為評估很重要,但大多數公司不愿做 評估,因為這件事很難做。
舉個 LiveKit 的例子。某家大客戶做語音 Agent 客服,發現通話經常提前掛斷,體驗很差。于是他們在提示詞里加了一句:你不要那么早掛電話。上線前,工程師只打了三四個測試電話,感覺確實晚了一點,就直接推到生產環境;按理說,至少要先打個幾百通電話,再決定是否上線。可現在硅谷流行的是 “Vibe Checking”,感覺(Vibe)對上就直接部署了。
而且,除了專門做評估的公司,做業務的公司自己也會加入評估組件。
晚點:大家覺得評估重要,但做起來難,難在哪里?
Henry:一是成本高。評估數據很多需要人工標注。任務越復雜,成本越高。
二是策劃與共識。團隊常對 “用什么數據、怎么構建數據集” 沒有一致意見。還會出現很搞笑的情況:辛苦做出一個數據集,評估下來變好了,本人卻不信——“數據集說變好了,但我感覺變差了”。
晚點:哪些 LLM 的任務更好評估,哪些難評?
Henry:OpenAI 和 DeepSeek 把強化學習放在編程和數學上,因為評估信號清晰,模型能最大化從反饋里學習。難評估的是主觀性強或本身復雜度高的任務。
Agent 工具的市場規模可以到 2000-5000 億美元,已經誕生巨頭
晚點:最后想聊聊 Agent 工具(Agentic tooling)的商業層面給,你們覺得市場規模可能有多大?
Naomi:全球軟件市場年銷售約 6500 億美元,開發者工具(DevTools)拿中低個位數百分比。粗算 DevTools 規模約 200 到 300 億美元。
但這波 AI Agent 改變了游戲規則。紅杉曾預測,AI 會把軟件市場的天花板從六千多億推到約 10 萬億美元,因為它能切入服務業,把原來靠人力的服務轉成軟件。如果這個判斷成立,那么為 AI Agent 提供 “武器裝備” 的 Agent 工具市場規模也會隨之躍升。套用 5% 的市場份額,DevTools 的長期規模可能達到 2000 億到 5000 億美元。
我們認為,這一波 AI 不是瓜分存量,而是在創造增量,這也是我們看好這個市場的原因。
晚點:這個市場里會不會出現年收入 100 億美元的大公司?
Naomi:我覺得,這事已經在發生。我們可以從三個角度看。
第一個角度,先看市場有多大。我們剛剛用 Devtools 公司做參考:做身份認證的 Okta 最近一年收入大概在 20 億美元,云通信巨頭 Twilio 高峰期年收入大概在 40 億美元。
我們覺得 AI Agent 的經濟體量可能會是實體經濟的十幾倍。服務這套新經濟的基礎設施,比如智能體的驗證,市場空間也可能是十倍以上。如果 Okta 能到 200 億美元,那 AI Agent 的身份與調度可能就是數百億美元級別的市場,對應 AI native 的公司是 Composio。
第二個角度,不是所有巨頭都會被顛覆,關鍵看范式遷移發生在哪里。我們覺得真正的機會來自 AI Agent 帶來的全新需求,舉三個例子。
第一個例子在可觀測性。Datadog 做系統可觀測年收入超過 20 億美元;面向 Agent 的觀測平臺,規模可能更大,代表公司如 Braintrust 把智能體的執行過程拆開,不僅看服務器指標,還能回放、調試 AI 行為。
第二例子在 Agent 實時通信。Twilio 做人對人通信,年收入約 40 億美元;人和 Agent 系統的交互對話狀態更復雜,對延遲要求更高。像 LiveKit 正做低延遲的語音交互基礎設施,本質是在構建下一代專用通信層。
第三個例子在 Agent 模塊和現有工作流的集成。比如 Claude Code 屬于自主編碼的 Agent,有點像 GitHub 加 “工作臺” 的模式。它不會取代 GitHub,但會拉動一整套新工具鏈,比如代碼審計、回歸測試、安全執行。企業可以像拼樂高一樣,把 AI 嵌進現有工作流。
第三個角度,什么公司最可能長到百億美元?不能僅僅簡單拼工具,更看能不能形成網絡效應和數據壁壘。
可以從三個維度看。第一,它是否正在成為行業標準;第二,有沒有自進化的數據閉環,比如 Composio,用得越多,通過率越高,成本越低,壁壘越厚;第三,能不能卡住某個關鍵工作流節點,比如 LiveKit 做實時通信,Braintrust 做可觀測性,調用量越大,數據越值錢,越容易長成百億公司。
題圖OpenAI





京公網安備 11011402013531號