亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

OpenAI、Google、Anthropic都在做的Agent工具箱是什么丨晚點播客

IP屬地 中國·北京 晚點LatePost 時間:2025-10-19 22:07:07



與常駐硅谷的 AGI House 合伙人聊美國 “Agent 工具箱” 實踐。

采訪丨程曼祺

整理、撰文丨姚一楠

就在 10 月內,OpenAI、Google、Anthropic 三家最強模型公司都在 Agent 開發工具上有了新動作。

OpenAI 在 10 月 6 日的開發者日上推出 AgentKit 等一系列工具;兩天后,Google 發布 Gemini CLI(命令行交互)Extensions,成為 Gemini 開發生態的最新一環;又一周后(10 月 16 日),Claude 也新推出 Claude Skills,讓用戶不用編程,就能通過 “文件夾系統” 簡單地定義工作流。

不管是幫助開發者構建獨立 AI 或 Agent 產品,還是試圖讓用戶直接在自家 Chatbot 產品里定制更復雜的應用,這些紛繁的 Agent 工具都指向一個自然的需求:當模型一次次升級,怎么用好這些新能力成為重要課題。

核心模型廠商外,“Agent 工具箱” 也已成為硅谷的一個創業機會。今年夏天,開源 AI 框架公司 LangChain 融資 1 億美元,成為新獨角獸;語音模型提供商 ElevenLabs 賣員工老股的最新估值已來到 66 億美元;OpenAI 也在 9 月以 11 億美元全股收購做 ABtest 和 AI 應用評估(evals)工具的,其創始人維賈耶·拉吉(Vijaye Raji)出任 OpenAI 應用業務線 CTO(CTO of Applications)。

本期,我們邀請了兩位常駐硅谷的朋友,AGI house 的 Henry Yin 和 Naomi Xia,來一起聊 Agent 工具鏈(Agentic Tooling)的發展趨勢,和這個領域在美國的創業實踐。

Henry Yin 畢業于清華姚班,后前往伯克利攻讀博士,期間退學創辦思碼逸(Merico),用 AI 提升開發者效率,長期關注 Agent 工具鏈與應用層創新。他目前也在籌備一個新的社區型基金 MoE Capital (Mixture of Experts),希望和一群頂尖 AI 研究者和產品經理一起探索下一代 AI 創業與投資模式。

Henry 梳理了 Agent 工具鏈領域的 “6 次進化”。在他看來, Agent 工具的發展始終圍繞模型能力的躍遷,ChatGPT 發布催生 LangChain 框架,Anthropic 提出 MCP 協議為 Composio 轉型提供抓手,GPT-4o 推出高級語音模式為 LiveKit 帶來爆發式增長。模型升級的間隔越來越短,機會涌現的節奏也在加快。

Naomi Xia 畢業于沃頓商學院,曾任職于摩根大通 AI 投融資團隊,現在負責 AGI House 早期投資,已投資的 20 多家公司就有上文提及的 Composio 和 Livekit。

Naomi 分享了 AGI House 投資的邏輯。在她看來,過往全球開發者工具市場規模約 200 到 300 億美元,AI 可能把這個市場規模推高十倍。

OpenAI 踏出邁向平臺一步,通過 AgentKit 把好武功帶給開發者

晚點:10 月 6 日 OpenAI 舉辦第三屆開發者日(DevDay),有不少更新。我們可以先從其中和 Agent(智能體)相關的 AgentKit 聊起,它的整體產品思路是怎樣的,有哪些亮點?

Henry:這次的 AgentKit 是 OpenAI 自己練好了一身武功,現在開放給開發者。它幾乎涵蓋了整個 Agent 開發周期。

首先是構建,這次新推出了 Agent Builder —— 一個可視化工具,通過拖拽就能快速搭建 Agent。然后是前端部署,OpenAI 推出了 ChatKit,允許開發者在自己的應用中快速嵌入類似 ChatGPT 的聊天界面,與 OpenAI 的模型實時交互。最后是 Agent 上線后持續維護、優化,OpenAI 提供了監控、評估和改進的一套工具,“New evals”(evals 指 evaluation,即評估),新增 datasets(數據集管理)、自動 prompt 優化(自動提示詞優化)、Trace grading(痕跡分級)、以及 reinforcement fine tuning(強化微調)等功能。整個流程一條龍打通。

其中評估這部分,我本來覺得是某些 Agent 公司的護城河,但現在看這些能力正在被標準化,OpenAI 自己也做了。

晚點:可以解釋下什么是 Trace grading ?

Henry:所謂 Trace,就是一次完整的用戶與 Agent 交互流程。比如用戶讓 Booking.com 幫他訂機票,從輸入出發地、日期,到訂票成功或失敗結束,這是一個 Trace。

Trace grading 則是通過寫 grading(評價函數),判斷整個交互中哪些做得好、哪些不好,并給出標簽或評分。評分可以手動打,也可以讓 LLM 來做評審。

晚點:Agent Builder 這部分是不是有點像 Dify 或字節的 Coze?它是通過 workflow 把組件串成 Agent?

Henry:非常類似。在他們展示的一個 demo 里就是第一步先做提示詞分類,然后接一個 if/else 分支。是人手寫工作流。

所以這次也有一個批評,認為 Agent Builder 的思路與 AGI 有分歧。大部分人都認同,最后的終局是高度自動化的、能執行多步任務、持續使用工具的智能體。這需要把現在人工手寫的流程吃到模型里。而 Agent Builder 是先畫流程圖,兩者路徑幾乎相反。

整個 AgentKit 的思路,更多還是現在就能在企業里落地,這對追求研究者來說并不性感。比如我身邊的很多開發者,平時大多用 Anthropic 的 Claude Code 或 OpenAI 的 Codex 這類工具來構建 Agent,所以拖拉拽式的形式對他們的工作流影響不大。

但對大客戶來說,AgentKit 安全、好理解、能落地。所以我覺得它能賣單。

晚點:這次除了 AgentKit,一個重磅發布是 Apps in ChatGPT 和 Apps SDK,開發者日的第一項發布就是這個。會后 ChatGPT 負責人 Nick Turley 也直接告訴媒體,ChatGPT 有潛力變成個操作系統。

Henry:把 ChatGPT 當做操作系統,這已經不是第一次炒作了。第一次是兩年前的 CustomGPTs,但最終多數 GPTs 只是帶 logo 的一個 prompt 模板,因為當時去調外部數據很麻煩,也不能用第三方服務,也不能存儲狀態、發送通知或運行工作流。

晚點:你覺得這次會和 GPTs 不一樣。

Henry:有很大變化。現在有了 AgentKit 和 Apps SDK,它就類似 iOS 的開發 SDK,終于可以調用外部工具了,還補上了 UI 組件,這是一個真正的平臺,也有一套更完整的工具箱,而不只是一個 prompt 包裝。

更重要的是開發者的分發紅利。現在 ChatGPT 官方公布的周活有 8 億。只要你在 ChatGPT 里做出一個好應用,立刻能觸達大量用戶,冷啟動問題會小很多。

還有個意義是信任背書。大企業在意安全、合規,更愿意從 ChatGPT 等更大的平臺引入服務。這能幫開發者進入大型企業采購流程。

相比兩年前,OpenAI 這次也找了更多合作伙伴,比如 Canva、Booking.com 等,展示了更扎實的的初始應用。

晚點:有什么你印象比較深的初始應用嗎?

Henry:Canva 的體驗就好了不少。GPTs 時的 Canva 只能照指令給你生一張圖;現在的 Canva in ChatGPT,會先經過授權后,和你的 Canva 賬號綁定,把你已有的設計信息用到新任務里。

其實兩年前 Canva 已屬于高質量 GPTs 了,但當時一般開發者達不到這個效果。這次工具鏈更成熟,更多開發者有可能做出和首發合作伙伴效果相似的應用。

晚點:其實 2024 年,Anthropic 搶走了不少 OpenAI 的 to B 份額,之前一段時間,OpenAI 給外界印象也是在 to C 超級應用上更激進。

Herny:我覺得 OpenAI 不會放棄 to B。第一,用戶規模上 ChatGPT 周活 8 億,已經是 “操作系統級” 的流量入口;第二,生態壓力,Anthropic、Google 都在猛推企業側和開發者側,OpenAI 不可能只靠 to C;同時,從模型能力上,B 端數據和使用偏好對提升模型也很重要;現在很多 C 端用戶也是在生產力場景里使用 ChatGPT ,B 端數據的反饋也能反哺這塊。

從團隊變化也能看出來,比如他們新成立了 “The Future of Work” 的團隊,專門加速 AI 在各種商業場景的落地——像客服、合同審核、數據分析、商業線索轉化等。

OpenAI 在自己的頻道上還發了一系列 “OpenAI on OpenAI” 的視頻,基本覆蓋了我剛才提到的那些場景。

比如說商業線索轉化,OpenAI 現在每月大概能獲得 1.3 萬條銷售線索,以前人力最多能對其中約 1000 條做個性化回復,有了 AI 后效率顯著提升。

再比如,現在 ChatGPT 的客服基本由 AI 驅動。這個 AI 會與內部知識庫、政策庫交互,為用戶提供服務;服務過程中持續做評估與改進。Agent 的 “痕跡分級(Trace grading)” 結果,會反哺知識庫和政策庫。

OpenAI 把 Agent 反復做下來,工具被打磨得更好,最后沉淀成了 AgentKit,再分享給開發者。

晚點:OpenAI 現在同時投入這么多方向,這會分散它的注意力,影響追求 AGI 的速度嗎?

Henry:Sam 現在的想法可能是:我全都要。OpenAI 擴張速度也很快,已經好幾千人了,人多了就可能分叉;而且為了支撐越來越高的估值,OpenAI 商業化和營收壓力也在不斷上升。

晚點:OpenAI 裹挾了這么多投資,又和微軟、英偉達、AMD、英特爾、甲骨文等美國一批最大的科技公司相互采購,一種觀點認為,如此糾纏的利益,已讓它大而不能倒。

Henry:它現在可能確實是 too big to fail(大而不能倒),但 Sam 的野心不止于 5000 億美元的估值。

晚點:這次發布后,你身邊的創業者感受到的機會和壓力分別是什么?

Henry:大多數人看到的還是機會。新平臺把創業者和開發者和用戶拉得更近。

壓力有兩個方面:

- 一是數據與留存的不對稱。現在 app 的上下文與數據多托管在平臺方,初創團隊拿到的只是有限的上下文調用,而不是完整的用戶行為或分析數據。這樣很難真正建立用戶關系、優化留存。換句話說,就是在別人家的地基上建房,根基不穩。

- 二是平臺自己下場做的可能性。像 OpenAI 掌握完整的數據和用戶對話記錄,所以平臺上那些看起來很有潛力的機會,也有可能被 OpenAI 直接吃掉。

晚點:上次和 Pokee.AI 創始人 Bill Zhu 聊 Google 時,他有個類似的推演:Google 做開發者生態,一旦看到一些方向的潛力,可能自己下場做。

Henry:大家對 Google 反而沒那么擔心。Google 做應用的速度追不上初創公司;但 OpenAI 節奏快得多。

晚點:本身應用超強,是不是有可能是 OpenAI 做開發者生態的一個不利因素?

Henry:關鍵看 OpenAI 怎么定位。現在 AgentKit 只能用 OpenAI 的模型,是在評估的環節可以用到第三方的模型。

如果 OpenAI 真把 App SDK 和 GPT 形式的應用當成主要商業模式,就應該把自己定位成平臺,在 Agent 構建過程中放開工具和模型選擇。但目前還在試驗階段。

晚點:你覺得這種大模型操作系統或者說 AI 應用開發平臺的機會最后能容納幾個玩家?

Herny:看流量入口有幾個。現在最大的是 Gemini 和 ChatGPT。前幾天的數據是,Gemini 的總用戶量已超過 ChatGPT,但這是算了全平臺用戶量,比如在 Gmail 里打開了 Gemini 也會被計入。不過不管怎樣,Gemini 的追趕勢頭很猛。

在做開發者工具上,兩邊都比較強:Gemini AI Studio 的功能越來越全,OpenAI 這邊也剛發了一堆面向 Agent 開發的能力。

從 LangChain 到 Operator,Agentic Tooling 的 6 次進化

晚點:你們最近關注智能體工具鏈(Agentic tooling)的機會,簡單來說,這都包含什么?

Henry:Agentic tooling 就是構建虛擬數字人所需的工具和身體部件。

AGI 的一種定義是虛擬數字人:過去計算機是工具,人去適應機器;現在計算機會更像人,來適應我們。交互感受更加自然,從 “人機” 走向 “人人 “。要實現這一點,只有聰明的大腦不夠,還要能聽、能說、能行動的身體。

對應到具體部件,骨架就是 Agent 框架,代表公司是 LangChain,負責 Agent 能力協調調度;左右手是工具與瀏覽,左手是 MCP 協議,右手是 Browser Use,允許 Agent 像人一樣用瀏覽器獲取信息、操作交互;眼、耳、口這些器官是 Agent 感知部件,例如 ElevenLabs 做高質量語音合成,是 “嘴巴”,LiveKit 提供實時音視頻基礎設施,是 “眼睛和耳朵”;數字人還需要教練來持續評估表現、監督與改進,于是有了 Braintrust、Galileo 等公司專注 Agent 評測與可靠性保障。

Naomi:最近這個領域剛好有三個標志性事件。

第一是 ElevenLabs 員工將金額約 1 億美元的老股以 66 億美元估值賣給投資人。這時候距離 C 輪只有 9 個月,公司估值已翻倍。 ElevenLabs 做的是 AI 語音合成,增長和商業化進展都很快。

第二是 LangChain 剛剛以估值 11 億美元敲定一筆約 1 億美元的新融資,IVP 領投。這說明基金還在加碼工具鏈這層的開發者基礎設施。

第三是 OpenAI 用 11 億美元全股并購 Statsig。Statsig 做的是 AB 測試、功能逐步發布和數據指標閉環。直白說,就是評估模型效果,按節奏擴大流量。OpenAI 把這塊從外掛工具變成了內置組件。

把這三件事放在一起看,可以看到清晰的節奏:一頭是 Agentic tooling 的大規模落地,一頭是工具鏈核心組件持續獲資本加注,同時巨頭在做戰略整合。

晚點:從這輪 AI 熱潮以來,工具層已出現很多輪變化,從最開始的提示詞工程、RAG 再到上下文工程,你會怎么總結這個變化脈絡?

Henry:我覺得 Agent 工具的發展始終圍繞模型能力的躍遷。借用虛擬數字人的比喻,過去兩三年我們見證 “大腦” 一再升級;每次升級都會暴露 “身體” 的短板,隨之催生一波新工具來補齊。大致經歷了六次主要升級。

第一次升級在 2022 年底,ChatGPT 和 GPT-3.5 發布。全球第一次直觀感受到 LLM 的力量,大家都想拿它做應用。很快發現僅靠 “會聊天” 的腦子不夠:還需要用到外部數據、管理上下文、把多個 LLM 調用編排起來處理復雜任務。于是 LangChain 等框架出現,提供腳手架讓開發者可以更快構建應用。那會兒大家還不叫它 “Agent”,不過很快就有了。

第二次升級大約在 2023 年 6 月,OpenAI 首次在 API 里官方支持 function calling(工具使用),LLM 開始能按上下文需要調用外圍工具。從那時起,越來越多人專門為 LLM 寫工具。為了寫一個像樣的 Agent,八九成精力都花在 “寫好工具” 上。

第二次升級的另一個關鍵節點是 2024 年 11 月,Anthropic 發布 MCP 協議,讓工具在不同模型間更易復用。不少工具提供方順勢轉成 MCP Server 提供商。

第三次升級在語音。 2024 年 5 月,GPT-4o 的 Advanced Voice 模式推出,第一次像 “人” 的高質量語音交互雛形出現,也帶火了實時音視頻傳輸需求。LiveKit 因為是 4o 背后的基礎設施,迎來一波爆發式增長。

第四次升級在 coding。2024 年 Claude 3.5 Sonnet 的發布和迭代帶來了 Cursor 的成功。AI 寫代碼能力大幅增強,連數據分析都能用 “寫代碼” 來完成,于是對 “安全執行代碼” 的沙盒環境需求暴漲,產生了 E2B、Daytona 這樣的代表公司。

第五次升級在推理能力的突破。 2024 年 9 月 OpenAI 發布 o1 preview。推理能力提升后,Agent 能根據任務自行規劃步驟與選擇工具,由此催生兩類工具:(1)OpenAI、Fireworks 提供的強化學習微調工具,大家用它在模型外通過 RL 增強 Agent 能力;(2)Braintrust、Galileo 提供的評估與監督工具,復雜任務更需要它。

第六次升級是 Computer use 和 Browser Use 能力的出現。 2024 年 10 月,Anthropic 率先發布 Computer use 模型,隨后 OpenAI 推出 Operator。Agent 終于能像人一樣用瀏覽器完成任務,隨之形成一條完整的瀏覽器生態:底層是云端瀏覽器基礎設施(Browserbase、Anchor Browser),上層是直接給開發者的自然語言 API(例如 “幫我訂個外賣”)。

晚點:工具調用方面,最早 OpenAI 在 2023 年 6 月 推出 function calling,現在更主流的協議卻是 Anthropic 發起的 MCP。這是為什么?

Henry:Claude 在 “怎么把 tool use 做強” 上花了很多時間,過程中沉淀出 MCP。OpenAI 雖然先到了這個,但之前沒有 Anthropic 在這上面花的精力多。

晚點:下一次進化會是什么?

Henry:很難預測。相對確定的是,所有大模型廠商都會繼續加注 Agent 能力:一是推理,二是工具使用,三是語音。另外,多模態會更深融合,比如最近的 “Nano Banana” 就是圖片模型和大語言模型結合。

用 Agent 做的工具已經能搭建出高質量的 Agent

晚點:剛才你梳理了 Agentic tool 的發展脈絡,這個領域也出現了很多第三方創業公司,你具體會關注什么方向,有哪些公司?

Henry:首先,Agent 變強后,配套工具的質量必須提升,能支持更細、更復雜的操作。現在很多 MCP Server 還是偏 read-only,場景上用 Reddit、Twitter 的 MCP Server 做深度研究較多;但隨著模型推理和調用工具能力變強,Agent 可能去做帶風險的 “寫”。Naomi 最近投了 Composio ,可以分享一下。

Naomi:Composio 是 MCP 的集成商,能提供高質量 MCP Server。它不止能調工具,更多保證任務的可靠執行,等于給 Agent 提供了一套更完整的操作系統。

晚點:MCP Server 集成商具體是做什么的?

Naomi:MCP Server 有點像 API 接口,你調用 MCP Server 就像在集市上選擇工具組裝起來。Composio 可以幫你搭建 MCP Server,你只需要點幾下就可以調用你希望喚起的智能體。

Henry:我補充一下,Composio 提供幾百個高質量的 MCP Server 供選擇。

Composio 在產品層面分兩部分:一部分是平臺,開發者通過編程把平臺上的 MCP Server 接到自己的 Agent;另一部分是偏 prosumer (消費者 + 生產者)的產品叫 Rube,它最近增長很快,因為解決了在 Cursor 中只能同時調用 3 個 MCP Server 這個痛點。 Rube 提供了 metaMCP Server,可以根據任務自動調用正確的 MCP Server,“one MCP Server to rule them all”。

晚點:一個 MCP Server 里能有多少工具,現在受什么限制?

Henry:每個 Server 可以接多種工具,具體數量取決于設計者取舍和產品復雜度。比如做 Gmail 的 MCP Server,如果想覆蓋 Gmail 大部分功能,工具就會很多。但功能接近的工具會讓模型困惑,不知道該調用哪個,就容易出錯。

晚點:你們最初是怎么注意到 Composio 的?

Naomi:在 AGI House 我們經常辦大型黑客活動,開發者做 AI Agent 必須調用多種工具,我們就在想能不能做一個集合型 Agent,在執行任務時可以同時接入多個 MCP 服務器。來自社區的一線反饋說,Composio 比較可靠,調用這些工具很順滑。我們也很喜歡他們團隊這種堅毅以及高效行動的風格。

Naomi:2023 年 7 月 Composio 在印度成立,最初想做 “自動生成集成代碼” 的智能體,但代碼準確度不夠。他們發現原因是模型調用工具的過程不穩定,于是轉向搭建智能體的技能層——把通用工具封裝成可直接調用的技能。

團隊在資源匱乏的印度起步,卻憑借高質量技術演示和社區驅動迅速出圈,創始人親自下場在 Reddit、Discord 與開發者共創迭代。憑借這種強執行力與技術直覺,他們最終拿到光速創投(LSVP)領投的 A 輪投資。2024 年 6 月產品上線時已積累 ClickUp、Gleam 等早期客戶。

Henry:最有意思的是,Composio 一開始做 Agent,后來轉成 Agentic tooling。之所以能成為 tooling 公司,是因為它把 Agent 做得好。

晚點:既然 Agent 做得好,為什么要轉向工具鏈?

Henry:他現在還在做 Agent,只是業務拓展到了 Agentic tooling。最初他們在印度的 Agent 質量高就是因為在用 Agent 自動寫 Server。他們在 MCP 出來前看到做工具集成調用的機會開始轉向,MCP 發布后產品迎來一波爆發。

Naomi:Composio 本質是一家 Agent 公司。平臺上的 MCP Server 基本都由自家 AI Agent 自動寫代碼完成。他不只是賣工具,更用自身業務的數據做飛輪,持續生成和優化工具。它的壁壘不僅在平臺有多少工具,還在大規模自動化集成、處理、優化海量數據的能力。

晚點:這具體指什么?

Henry:每次用戶與 Composio 交互,都會創建一個 Agent 會話(session)。一次會話里,一個任務可能要調用多個工具。整個過程都會被記錄成日志(log),再由另一個 Agent 審查:調用成功還是失敗?失敗的話原因是什么,成功的話有沒有優化空間?

Composio 會有專門的 Agent 分析每個會話日志,自動寫出改進的 Pull Request,直接改進 MCP 服務器,整條鏈路都是自動化的。

編者注:Pull Request(PR),是指開源軟件項目中,貢獻者提交代碼更改到代碼庫的請求。該術語主要用于 GitHub 等網站。

晚點:Anthropic 為何不自己做 MCP Market?就像蘋果做 App Store。

Naomi:因為這事不增強它的護城河。Anthropic 是大模型公司,優勢在模型輸出效果和安全性,把人力投到第三方 API 的維護只會分散資源。

晚點:Agent 在瀏覽器、手機上的執行成功率并不高,你們覺得 MCP 生態會怎么發展?

Henry:先說可靠性。桌面端常用的基準測試是 OSWorld,瀏覽器端是 WebArena,最好的模型在這些基準上成功率也就 60%~70%。這種成功率很多場景不可用,比如美國醫療建檔。

但面向長尾場景,很多服務和網站不在 MCP 覆蓋范圍,Browser Use 是有價值的。比如很多日本的精品酒店沒接入 OTA(online Travel Agency,在線旅行社),有人用瀏覽器操作抓取空房日志,把信息組合后提供給搜索引擎,用戶就能搜到這些酒店。

晚點:在移動生態里應用間相對封閉,長期他們會愿意融入 MCP 生態嗎?

Henry:有觀點認為,ChatGPT 終局是 WeChatGPT。AI 越來越強,越像數字人。而我們辦事本質是和人溝通。等到 ChatGPT 把所有事裝進一個應用里,所有服務提供方都會被迫為大模型開放交互接口。

美國頂尖實驗室都在加碼 AI 語音,但有時 AI 不像人反而更好

晚點:除了 Broswer Use 和 Phone Use,智能體工具領域還有哪些你關注的方向?

Henry:我們還很看好語音。現在全球每天約 100 億次通話,很大一部分是商業通話,比如客服,面向企業服務的 AI 機會很大;第二類是個人助理或情感陪伴,增長也很快。

這塊我們很關注 LiveKit。LiveKit 成立于疫情期,一開始服務遠程辦公需求,基于 WebRTC 的實時音視頻傳輸,與 AI 關系不大。第一次 AI 方向的爆發來自 GPT-4o 把 LiveKit 用作語音傳輸層,之后它從底層往上豐富產品,現在用它的 SDK 能方便地搭建語音 Agent 。

現在 LiveKit 每天支撐約 2000 萬次通話,一年前數據是 100 萬,年增 20 倍。企業層面,OpenAI 、Character.AI 以及 Grok 的語音層都由 LiveKit 驅動,全美最大的 CRM 公司 Salesforce 馬上要把客服智能體部署在 LiveKit 平臺;公共服務層面,LiveKit 可以支持美國 911 約 25% 的呼叫,通過直播現場讓接線員了解情況,還能轉接心肺復蘇的教練,大概每周能多救回一條人命。這是我們決定投資的關鍵。國內 LiveKit 用得還不多,但增長也很快。

晚點: LiveKit 上現在用得最多的語音模型來自哪個廠商?

Henry:OpenAI、ElevenLabs、Cartesia 的模型都有接入。LiveKit 平臺可以支持兩種范式的模型:一種是級聯式語音智能體(Cascade Voice Agent):先語音轉文本(STT),再過大模型,最后文本轉語音(TTS);另一種是語音到語音,比如 OpenAI 的 GPT 語音輸入,語音輸出。

晚點:兩種范式都有用戶在用嗎?前一種在某些場景綜合成本是不是更好?

Henry:我們判斷終局會是 “語音到語音”,因為模型能識別情緒這種上下文呈現不了的細節。但現在很多人仍用 “級聯式”(語音→文本→大模型→文本→語音),原因有兩點:一是更可控,語音轉成文本后能寫入保護和規則判斷;二是并非所有場景都需要像人,比如醫院客服只要按要求提供信息,AI 不那么像人反而更好。

晚點:我們之前聊過,美國一些頂尖 AI 實驗室都在加大對語音能力的投入。這釋放了什么信號?

Henry:我有兩個觀察。

一個是現在有公司專門給它們提供語音數據,成長很快、融資不錯。比如 David AI,最近幾個月拿了約 2500 萬美元的 C 輪。

另外,OpenAI 上周發布了 GPT 實時(Real-Time GPT)API 的正式版,相比去年 10 月的 1.0 版本主要有兩點改進:一是更像人了,說話的語調、表達的豐富度更自然,對 “更溫情 / 更職業化” 等指令的執行更到位;二是能更好理解笑聲、情緒,也能在說到一半時順暢切換語種。

晚點: Anthropic 在多模態上的投入更少,是不是沒在參與這方面競爭?

Henry:我覺得 Anthropic 已經全力押注編程了。留在語音牌桌上還是 Grok、OpenAI、Google 這些大玩家。

Agent 的四種記憶,和 Letta 的全新記憶方案

晚點:你之前提到,記憶是 Agentic tooling 的重要方向。這個領域可能有機會,一些公司也有動作,能講講嗎?

Henry:我們可以從四類記憶說起:它們是什么,以及如何幫助 Agent 更好地完成任務。

第一類,情境記憶。比如客服機器人記得上周和你聊過,嘗試過方案 X。好處是避免重復操作,保持對話連續性。

第二類,流程記憶。比如 Agent 記得上周部署在第三步失敗,它就會避免重復錯誤,改走有效路徑。這類記憶適用于企業搭建智能體工作流。

第三類,存儲事實的知識記憶。比如 Agent 給用戶購物時能去折扣規則庫里檢索可用折扣,不會編出不存在的折扣。規則庫也算記憶的一部分。

第四類,角色記憶或人格記憶。它記錄一套人格或風格設定,適用于情感陪伴。比如 AI 男友女友要保持既定的交流風格,不能出戲。

這方面我們接觸最多、增速也很快的一家叫 Letta,由兩位伯克利的博士畢業后創立,幫 Agent 開發者做 “有狀態的智能體(State for Agent)”。

他們提出個有意思的概念:睡眠時計算(Sleep-time Compute)。大家熟悉的是推理時計算(Test-time Compute)——推理步驟中多消耗些 token 輸出效果更好。Letta 不是在推理時燒 token,而是在系統空閑時做整理。就像白天開了很多會,晚上用睡覺時間回放處理,把信息沉淀成學習內容和洞見。

晚點:用戶會不會不愿把數據給 Letta?自動駕駛里有先例:國內自動駕駛的初創公司優化算法需要司機數據,但車企是大客戶,出于競爭和數據敏感性不愿給,結果一家一家去談很麻煩。

Henry:我覺得類似情景不太會出現。現在的 Agent 應用市場更分散、更多樣,很多創業公司體量小,商業話語權不強。

晚點:Agent 公司不會自己做這塊嗎?

Henry:早期沒有最優標準,大家都在摸索,于是 “八仙過海”。等弄清楚該用哪類記憶、怎么用最好,標準化產品會出現。像 Letta 把臟活累活包了,開發者就能把精力放在核心競爭力上。

晚點:OpenAI 今年不是也上線了記憶功能?

Henry:OpenAI 的記憶有了明顯改進。舉個例子——我說 “今天生日我媽媽給我做了我最喜歡的甜點提拉米蘇。”

以前是把整句直接塞進 ChatGPT 的記憶,這有兩個問題:不知道 “我” 是誰,也不知道生日是多少。

現在會拆成結構化的幾條:(1)Henry 的生日是 9 月 18 日;(2)Henry 喜歡提拉米蘇;(3)在生日當天,Henry 的媽媽給他做了他喜歡的提拉米蘇。這樣后續查詢更好用。

晚點:大模型能力進化后能自己搞定記憶能力嗎?

Henry:大模型的演進和 “記憶” 是兩條線。模型層與記憶最相關的是上下文會變長,但上下文不是免費的午餐,越長成本越貴,性能還可能下滑。

晚點:今年被很多 Agent 公司關注的上下文工程(context engineering)和記憶的關系是什么?

Henry:記憶最終要用,必須塞進上下文,所以它屬于上下文工程的一部分。

上下文工程的本質,是決定哪些信息該進上下文。它涉及兩個循環:本次生成時,內循環決定哪些信息進入上下文;從長期看,外循環決定如何提升把 “對的信息” 塞進上下文的能力。

相比之下,長期記憶更像 “工具層”,不是模型本體,而是大模型的外接硬盤。

所有人都覺得 “評估” 重要,但都做得不夠好

晚點:想展開聊聊你剛提到的 “評估”,最近 OpenAI 以 11 億美元收購了 Statsig。標準化的第三方評估工具會有創業機會嗎?

Henry:有趣的是,幾乎所有人都認為評估很重要,但大多數公司不愿做 評估,因為這件事很難做。

舉個 LiveKit 的例子。某家大客戶做語音 Agent 客服,發現通話經常提前掛斷,體驗很差。于是他們在提示詞里加了一句:你不要那么早掛電話。上線前,工程師只打了三四個測試電話,感覺確實晚了一點,就直接推到生產環境;按理說,至少要先打個幾百通電話,再決定是否上線。可現在硅谷流行的是 “Vibe Checking”,感覺(Vibe)對上就直接部署了。

而且,除了專門做評估的公司,做業務的公司自己也會加入評估組件。

晚點:大家覺得評估重要,但做起來難,難在哪里?

Henry:一是成本高。評估數據很多需要人工標注。任務越復雜,成本越高。

二是策劃與共識。團隊常對 “用什么數據、怎么構建數據集” 沒有一致意見。還會出現很搞笑的情況:辛苦做出一個數據集,評估下來變好了,本人卻不信——“數據集說變好了,但我感覺變差了”。

晚點:哪些 LLM 的任務更好評估,哪些難評?

Henry:OpenAI 和 DeepSeek 把強化學習放在編程和數學上,因為評估信號清晰,模型能最大化從反饋里學習。難評估的是主觀性強或本身復雜度高的任務。

Agent 工具的市場規模可以到 2000-5000 億美元,已經誕生巨頭

晚點:最后想聊聊 Agent 工具(Agentic tooling)的商業層面給,你們覺得市場規模可能有多大?

Naomi:全球軟件市場年銷售約 6500 億美元,開發者工具(DevTools)拿中低個位數百分比。粗算 DevTools 規模約 200 到 300 億美元。

但這波 AI Agent 改變了游戲規則。紅杉曾預測,AI 會把軟件市場的天花板從六千多億推到約 10 萬億美元,因為它能切入服務業,把原來靠人力的服務轉成軟件。如果這個判斷成立,那么為 AI Agent 提供 “武器裝備” 的 Agent 工具市場規模也會隨之躍升。套用 5% 的市場份額,DevTools 的長期規模可能達到 2000 億到 5000 億美元。

我們認為,這一波 AI 不是瓜分存量,而是在創造增量,這也是我們看好這個市場的原因。

晚點:這個市場里會不會出現年收入 100 億美元的大公司?

Naomi:我覺得,這事已經在發生。我們可以從三個角度看。

第一個角度,先看市場有多大。我們剛剛用 Devtools 公司做參考:做身份認證的 Okta 最近一年收入大概在 20 億美元,云通信巨頭 Twilio 高峰期年收入大概在 40 億美元。

我們覺得 AI Agent 的經濟體量可能會是實體經濟的十幾倍。服務這套新經濟的基礎設施,比如智能體的驗證,市場空間也可能是十倍以上。如果 Okta 能到 200 億美元,那 AI Agent 的身份與調度可能就是數百億美元級別的市場,對應 AI native 的公司是 Composio。

第二個角度,不是所有巨頭都會被顛覆,關鍵看范式遷移發生在哪里。我們覺得真正的機會來自 AI Agent 帶來的全新需求,舉三個例子。

第一個例子在可觀測性。Datadog 做系統可觀測年收入超過 20 億美元;面向 Agent 的觀測平臺,規模可能更大,代表公司如 Braintrust 把智能體的執行過程拆開,不僅看服務器指標,還能回放、調試 AI 行為。

第二例子在 Agent 實時通信。Twilio 做人對人通信,年收入約 40 億美元;人和 Agent 系統的交互對話狀態更復雜,對延遲要求更高。像 LiveKit 正做低延遲的語音交互基礎設施,本質是在構建下一代專用通信層。

第三個例子在 Agent 模塊和現有工作流的集成。比如 Claude Code 屬于自主編碼的 Agent,有點像 GitHub 加 “工作臺” 的模式。它不會取代 GitHub,但會拉動一整套新工具鏈,比如代碼審計、回歸測試、安全執行。企業可以像拼樂高一樣,把 AI 嵌進現有工作流。

第三個角度,什么公司最可能長到百億美元?不能僅僅簡單拼工具,更看能不能形成網絡效應和數據壁壘。

可以從三個維度看。第一,它是否正在成為行業標準;第二,有沒有自進化的數據閉環,比如 Composio,用得越多,通過率越高,成本越低,壁壘越厚;第三,能不能卡住某個關鍵工作流節點,比如 LiveKit 做實時通信,Braintrust 做可觀測性,調用量越大,數據越值錢,越容易長成百億公司。

題圖OpenAI

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

国产精品视频123| 7777kkkk成人观看| 欧美中文字幕在线视频| 国产伦精品一区二区三区免| 中文字幕免费高| 日韩视频免费在线播放| 在线免费观看黄色小视频| 日韩精品乱码久久久久久| 国产小视频免费观看| 成人性生交大片免费| 亚洲人一二三区| 777a∨成人精品桃花网| 丝袜亚洲欧美日韩综合| 国产精品福利无圣光在线一区| 日本不卡在线播放| 欧美日韩大尺度| 亚洲一区二区自偷自拍| 永久免费无码av网站在线观看| 亚洲 欧美 激情 小说 另类| 久久精品亚洲乱码伦伦中文| 91福利国产精品| 中文字幕国内精品| 国产在线观看精品一区二区三区| 伊人久久大香线蕉成人综合网| 色婷婷激情视频| 天天看片中文字幕| 欧美 日韩 国产 在线| 91色在线porny| 日本韩国视频一区二区| 中文字幕日韩欧美在线| 国产中文字幕亚洲| 免费极品av一视觉盛宴| av网页在线观看| 福利网址在线观看| 精品一区二区三区免费播放| 亚洲婷婷综合色高清在线| 日韩一区二区三区三四区视频在线观看| 九九热r在线视频精品| 国产伦精品一区二区三区免| 黄色片在线免费| 欧美一区免费观看| 欧美一级在线免费观看| 欧美国产一区在线| 日韩午夜在线观看视频| 91av在线不卡| 在线天堂一区av电影| 国产女主播在线播放| 69成人免费视频| 经典三级在线一区| 精品久久久久久中文字幕一区奶水| 亚洲色图狂野欧美| 4444kk亚洲人成电影在线| 91成人在线观看喷潮教学| 波多野吉衣中文字幕| 国产精品高潮呻吟av| 91影院在线免费观看| 欧美日韩你懂的| 久久久久久久久久久91| 水蜜桃一区二区| xxxx视频在线观看| 一区二区三区麻豆| 99免费精品在线观看| 欧美日韩亚洲高清一区二区| 久久久久久久国产精品视频| 亚洲欧美久久久久一区二区三区| 精品一区二区三区四区五区六区| 在线观看免费视频a| 26uuu国产电影一区二区| 欧美高清www午色夜在线视频| 97国产在线观看| 99精品一级欧美片免费播放| 久久美女免费视频| 天天操天天射天天| 亚洲最色的网站| 日韩中文理论片| 欧美日韩国产精品一卡| 无码人妻精品一区二区三| 一级黄色小视频| 国产欧美日产一区| 日韩精品视频在线播放| 成人自拍网站| 久久久久久久久久久久久久久国产 | 亚洲黄色片视频| 亚洲欧美一区二区三区极速播放 | 99久久国产免费看| 日韩美女主播在线视频一区二区三区| 国产日本欧美一区| 欧美精品性生活| 国产免费av一区| 久久美女高清视频| 亚洲国产精品一区二区三区| 国产91视觉| 9191在线视频| 国产99视频在线| 亚洲精品免费播放| 欧美xxxx综合视频| 99热这里只有精品7| 香蕉久久久久久久| 久久激情综合网| 欧美日韩一级片在线观看| 国产成人精品av在线| 成人免费aaa| 日韩精品一区二区在线播放| 99re成人精品视频| 日韩成人在线视频网站| 国语精品免费视频| 91视频啊啊啊| 成人羞羞国产免费图片| 色婷婷久久久综合中文字幕| 国外色69视频在线观看| 久久久久免费看黄a片app| 日韩av一二三区| 91在线你懂得| 亚洲欧美制服中文字幕| 日韩精品伦理第一区| 天天干天天舔天天操| 美女脱光内衣内裤视频久久影院| 精品视频免费看| 91免费福利视频| 黑人无套内谢中国美女| 丰满人妻一区二区三区四区53| 精品欧美激情精品一区| 国产成人精品优优av| 奇米影视四色在线| 国产夫妻在线观看| 无码av免费一区二区三区试看 | 午夜久久久影院| 2018日韩中文字幕| 国产真实乱子伦| 亚洲熟女乱色一区二区三区久久久| 亚洲欧美日本在线| 97福利一区二区| 狠狠操精品视频| 91精品在线视频观看| 亚洲国产精品一区二区久久 | 日韩不卡高清视频| 亚洲精品国产精品乱码不99| 97碰在线观看| 日韩av在线中文| 亚洲经典一区二区三区| 在线看不卡av| av色综合网| 亚洲av无码一区二区三区人| 国产一区二区三区久久久| 亚洲黄色av网站| 亚洲国产一区二区精品视频 | 九九热只有精品| 国产午夜精品一区二区| 成人97在线观看视频| 欧美成人三级在线视频| 国产一区二区三区三州| 日韩欧美成人区| 亚洲精品欧美极品| 伊人网伊人影院| 国产成人av一区二区三区在线| 亚洲欧美制服丝袜| av无码久久久久久不卡网站| 中文字幕欧美在线观看| 狠狠综合久久av一区二区小说| 成人看片人aa| 国产熟妇搡bbbb搡bbbb| 国产成人8x视频一区二区| 国产香蕉精品视频一区二区三区| 日本黄xxxxxxxxx100| 亚洲第一网站在线观看| 香蕉影视欧美成人| 亚洲精品女av网站| 日韩av片在线免费观看| 久久久久久麻豆| 久久久久久久久久婷婷| 成人在线免费播放视频| 丰满人妻妇伦又伦精品国产| 欧美一级高清大全免费观看| 亚洲成人一区二区三区| 天天干在线播放| 午夜影视日本亚洲欧洲精品| 川上优av一区二区线观看| 99久久久无码国产精品衣服| 91麻豆免费观看| 欧美极品xxxx| 伊人精品视频在线观看| 国内精品视频666| 最新亚洲国产精品| jizz欧美激情18| 日日夜夜精品视频天天综合网| 日韩亚洲欧美在线| 日韩视频在线观看视频| 在线免费看av的网站| 欧美色视频一区| 青青草久久网络| 99超碰在线观看| 日本韩国一区二区三区视频| 欧美三日本三级少妇三99| 男女啊啊啊视频| 欧美日韩色婷婷| 久久精品国产一区二区三区不卡| 国产亚洲第一页| 亚洲一二三四在线观看| 国产98在线|日韩| 久久精品国产亚洲av香蕉| 亚洲福利视频导航| 国产伦精品一区二区三区视频孕妇| 九九视频免费看| 亚洲国产日产av| 国产精品对白刺激久久久| 久久国产精品波多野结衣av| 亚洲成人你懂的| 精品欧美一区二区三区久久久| www.国产成人| 91久久精品网| 亚洲高清视频在线观看| 在线视频1卡二卡三卡| 91麻豆精品国产91久久久使用方法| 中文字幕乱码一区二区三区| 国产女人高潮的av毛片| 精品女同一区二区| 国产一区二区视频播放| 久久亚洲二区| 色伦专区97中文字幕| 国产精品久久久久久9999| 成人av在线资源网站| 国语自产精品视频在线看抢先版图片| 男女一区二区三区| 国产清纯在线一区二区www| 国产精品自拍网| 欧美在线视频第一页| 亚洲1区2区3区视频| 日本亚洲导航| 国产精品久久久久久免费免熟 | 亚洲欧美一区二区三区四区| 欧美一级黄色片视频| 极品少妇xxxx精品少妇偷拍| 欧美丰满少妇xxxxx| jlzzjizz在线播放观看| 国产精品久久毛片av大全日韩| 91理论片午午论夜理片久久| 国产精品第二十页| 欧日韩精品视频| 精品嫩模一区二区三区| 姝姝窝人体www聚色窝| 亚洲一品av免费观看| 亚洲精品乱码久久久久久动漫| 成人黄色综合网站| 国产精品第一页在线| 少妇aaaaa| 日本高清免费不卡视频| 黄色网址在线免费看| 久久一区二区三区超碰国产精品| 日韩视频欧美视频| 亚洲国产综合视频| 亚洲欧美激情视频在线观看一区二区三区| 国产欧美日韩综合精品二区| 日本中文字幕在线观看视频| 精品奇米国产一区二区三区| 久久精品国产亚洲7777| 亚洲激情一区二区三区| 一区二区三区免费在线视频| 精品处破学生在线二十三| 国产一区二区三区精彩视频| 国产一区二区三区四区在线观看| 97精品伊人久久久大香线蕉| 国产亚洲精品精品精品| 亚洲国产一区二区三区| 亚洲国产高清国产精品| 日本黄色一区二区三区| 久久久极品av| 巨胸大乳www视频免费观看| 一区二区不卡在线播放 | 五月天福利视频| 国产亚洲精品美女久久久久| 亚洲图色中文字幕| 久久午夜免费电影| 日产精品久久久一区二区福利| 91禁男男在线观看| 欧美性猛交视频| 亚洲一区二区三区精品动漫| 少妇高潮一区二区三区99小说| 精品国模在线视频| 亚洲人成人无码网www国产| 亚洲成人免费电影| 波多野结衣激情| 美女视频免费一区| 全球成人中文在线| 精品无码人妻一区二区三区品| 欧美日韩一级片网站| 成年网站在线免费观看| 免费看污久久久| 夜夜爽8888| 国产偷亚洲偷欧美偷精品| 日韩av片免费观看| 国产日产精品一区| 精品国产乱码久久久久久108| 国产美女免费视频| 搡老女人一区二区三区视频tv| 黄色性生活一级片| 亚洲国产精品久久久男人的天堂| 亚洲精品视频一区二区三区| 天堂影院一区二区| 69精品小视频| 久久久久黄色片| 日韩午夜电影在线观看| 亚洲天堂国产视频| 国产精品成人网| 亚洲精品欧洲精品| 美女视频黄a大片欧美| 国产精品扒开腿做爽爽爽男男| 日韩欧美成人一区二区三区| 亚洲精品久久久久中文字幕欢迎你| 女人扒开双腿让男人捅| 亚洲综合色丁香婷婷六月图片| 99精品一级欧美片免费播放| 国产一区二区视频在线播放| 国产日韩在线看| 最近中文字幕在线观看视频| 最近2019中文免费高清视频观看www99 | youjizz.com在线观看| 国产精品亚洲午夜一区二区三区| 91免费欧美精品| 国产乱码一区二区| 久久91超碰青草是什么| 免费看一级一片| 精品久久久久一区| 色哟哟视频在线| 精品久久久久久国产91| 亚洲中文字幕无码专区| 久久久精品日韩欧美| 日韩精品久久一区| 久久综合综合久久综合| 成人精品aaaa网站| 99热这里只有精品99| 免费av一区二区| 国产精品99精品无码视| 国产丝袜一区二区三区免费视频| a级在线免费观看| 欧美日韩国产精品成人| 四虎成人在线播放| 亚洲天堂福利av| av不卡在线免费观看| 丁香六月综合激情| 看欧美日韩国产| 毛片不卡一区二区| 91网免费观看| 天堂网2014av| 国产精品视频导航| 国产成人精品a视频| 91wwwcom在线观看| 中文字字幕在线观看| 欧美丰满老妇厨房牲生活| 成人毛片在线播放| 色狠狠av一区二区三区香蕉蜜桃| 午夜精品福利在线视频| 日韩国产精品视频| 女人裸体性做爰全过| 精品久久国产97色综合| 少妇久久久久久久久久| 日韩亚洲欧美成人一区| 变态另类丨国产精品| 91精选在线观看| 人妻无码中文久久久久专区| 色婷婷亚洲综合| 无套白嫩进入乌克兰美女| 色狠狠综合天天综合综合| 日韩av影视大全| 91成人在线精品| 中文字幕在线播放一区二区| 日本韩国一区二区三区视频| 性xxxxxxxxx| 欧美三级午夜理伦三级中视频| 久久无码专区国产精品s| 在线观看免费成人| 岛国精品一区二区三区| 欧美日韩国产一区二区三区地区| 久久免费精品国产| 欧美精品视频www在线观看| 97精品人妻一区二区三区蜜桃| 欧美日韩的一区二区| 欧美成人三级伦在线观看| 欧美一区二区三区在线观看| 久久精品一区二区免费播放| 日韩精品最新网址| 男人的天堂av网| 日韩电影免费在线观看中文字幕| 国产美女高潮视频| 亚洲无线码在线一区观看| 精品少妇久久久久久888优播| 日韩专区在线观看| 天堂网中文字幕| 午夜精品久久久99热福利| 国产精品乱码久久久| 国产精品美女999| 无码国精品一区二区免费蜜桃| 亚洲一区二区日本| 麻豆精品一二三| 免费精品视频一区| 99精品视频在线观看| 日韩久久久久久久久久久久| 亚洲天堂2016| 在线观看av网页| 欧洲一区二区av| 成人免费av片| 日韩成人黄色av| 国产亚洲欧美精品久久久www| 久久韩国免费视频| 波多野结衣不卡| 日本精品免费观看| 亚洲 欧美 精品| 精品国产综合久久| 99国产一区二区三精品乱码| 久久久久久人妻一区二区三区| 亚洲综合激情另类小说区|