當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

剛剛，OpenAI 發(fā)布了自己的 Agent模式，Manus Style

IP屬地中國·北京 編輯：沈如風(fēng) 極客公園 時(shí)間：2025-07-18 06:06:21

這次 Plus 用戶也能用。

作者｜Li Yuan
一個(gè)共識(shí)是，AI 今年的大主題，是 Agent。
如果說過去我們習(xí)慣了 AI 的「動(dòng)嘴」，那么接下來，就是 AI「動(dòng)手」的時(shí)代。畢竟，既然 AI 已經(jīng)能聽懂、又足夠聰明，那為什么不能直接把事兒干完？
2025 年下半場剛開局，一直在定義 AI 的 OpenAI，突然端出了他們的 Agent 答卷。不過有趣的是，乍一看，它和幾個(gè)月前爆火的 Manus 模式，驚人地相似。
7 月 18 日凌晨，Sam Altman 和四位 OpenAI 研究員在直播中介紹了 OpenAI 即將推出的 Agent 模式。
簡單來說，在 Agent 模式下，你可以直接對(duì) ChatGPT 提要求：婚禮缺雙鞋，去電商平臺(tái)幫我買了；或者，給我設(shè)計(jì)個(gè)寵物周邊，直接下單打印；查找信息，直接生成 PPT。然后，ChatGPT 會(huì)自己打開虛擬機(jī)，一步步操作。
在演示中，一個(gè)復(fù)雜任務(wù)大概需要 10 分鐘完成。但從結(jié)果看，完成度很高。ChatGPT 可以在虛擬環(huán)境里可以調(diào)用文本瀏覽器、可視化瀏覽器和終端。而基于終端，還可以進(jìn)一步調(diào)用云服務(wù) API、圖片生成器，運(yùn)行代碼等。
更關(guān)鍵的，這次 OpenAI 不再 Pro 用戶優(yōu)先，Plus、Team 用戶也將能很快上手，每月可用 40 次。量大，管飽。
Sam Altman 用他標(biāo)志性的真誠眼神，對(duì)著屏幕說：這是一個(gè)全新的范式。就像我們學(xué)會(huì)上網(wǎng)，最后也學(xué)會(huì)了甄別詐騙信息一樣，現(xiàn)在，整個(gè)社會(huì)需要學(xué)習(xí)如何與 Agent 安全地交互和共存。
01
Agent 模式能干什么？
直接觀看 OpenAI 的 Agent 模式演示，會(huì)發(fā)現(xiàn)其直觀體驗(yàn)與幾個(gè)月前爆火的 Manus 高度相似。
在用戶提出需求之后，都會(huì)自動(dòng)開啟一個(gè)虛擬機(jī)，開始自動(dòng)執(zhí)行一些任務(wù)，執(zhí)行過程中，Agent 會(huì)反復(fù)請(qǐng)求用戶確認(rèn)，并允許隨時(shí)手動(dòng)接管。同時(shí)，用戶也能在任務(wù)中途植入新需求，進(jìn)行實(shí)時(shí)交互。
而在 OpenAI 的介紹中，Agent 模式可以調(diào)用三種工具：文本瀏覽器、可視化瀏覽器和終端。模型可以自主選擇切換各種工具。
這種工具組合的設(shè)計(jì)頗為精巧：文本瀏覽器負(fù)責(zé)大量瀏覽文字，搜尋信息，而可視化瀏覽器則負(fù)責(zé)定位到信息之后直接模擬一些鍵鼠交互，或者用來讀取圖像信息。
而終端，則可以運(yùn)行代碼，生成包括 PPT、Excel 在內(nèi)的文件，和調(diào)用一些云端 API。

在 OpenAI 提供的第一個(gè)演示里，研究員提出要規(guī)劃參加另一個(gè)朋友婚禮的事宜，要挑選一套符合著裝要求的禮服（考慮場地、天氣、中高檔價(jià)位）預(yù)訂酒店，同時(shí)提供禮物建議。
研究員首先在 ChatGPT 里切換到 Agent 模式，把上述需求發(fā)過去。Agent 啟動(dòng)虛擬電腦、加載環(huán)境（大約幾秒）。
然后 ChatGPT 先試用文本瀏覽器打開了用戶給的網(wǎng)頁，搜索婚禮信息、著裝要求、天氣等。發(fā)現(xiàn)需要進(jìn)一步確認(rèn)婚禮日期時(shí)，模型也提出了澄清請(qǐng)求，但用戶選擇讓它自己繼續(xù)推理。
在找到了天氣、場地信息后，AI 開始推薦合適的禮服，并切換到可視化瀏覽器檢查禮服效果。完成任務(wù)后，繼續(xù)搜索酒店和禮物。

可以看到，最后給出的婚禮出行建議報(bào)告非常長而詳細(xì)，涵蓋了服裝、酒店、禮物。甚至附上了非常多的鏈接，在酒店是否有空位的索引上，還附上了在線預(yù)訂網(wǎng)站的截圖。
而完成這樣的一份報(bào)告，AI 只花了十分鐘。相比于我們熟悉的一問一答看起來時(shí)間是長了很多，但是相比于實(shí)際的工作量，AI 看起來還是要比人的效率高太多了。
如果說這個(gè)演示還是更加體現(xiàn)其研究能力，另一個(gè)演示則直接展示了其動(dòng)手能力。
研究員要求給團(tuán)隊(duì)的吉祥物（是一只可愛的狗狗，昵稱 Bernie）做出一批筆記本貼紙，并下單 500 張。
Agent 直接利用終端功能，調(diào)用了圖像生成工具（Image Gen API）來生成一張動(dòng)漫風(fēng)格的狗狗插畫，作為貼紙的設(shè)計(jì)圖案。
接著，Agent 打開瀏覽器訪問 Sticker Mule 網(wǎng)站，把設(shè)計(jì)好的圖上傳到網(wǎng)站，填寫了貼紙數(shù)量、尺寸等，并把商品加入購物車。
最后它主動(dòng)向用戶確認(rèn)，是否要用這張插畫？是否繼續(xù)下單？是否需要用戶自己輸入信用卡付款，還是讓它繼續(xù)完成？
任務(wù)停留在讓用戶接管輸入信用卡，花了 7 分鐘。

同樣的能力，Agent 還自己連接 Google Drive API（類似于國內(nèi)的網(wǎng)盤），讀取文件之后生成了一份 PPT。
查詢了賽季日程，生成了一個(gè)詳細(xì)的旅行電子表格 + 帶標(biāo)注地圖的旅行攻略。這個(gè)任務(wù)比較復(fù)雜，Agent 大約花了 25 分鐘完成。
02
輕描淡寫：AI 能力又進(jìn)步了
OpenAI 此次推出的新 Agent 模式，實(shí)際上并不是一項(xiàng)全新的創(chuàng)新，而是由 OpenAI 上半年推出的兩樣工具組合而成：Operator 和 Deep Research。
Operator 是原本只開放給了 Pro 用戶的瀏覽器 Agent 工具，能夠分析圖形操作界面，并做出一定的操作。
而 Deep Research，則是一個(gè)深入研究的分析工具，可以閱讀大量的網(wǎng)頁，直接生成一份調(diào)研報(bào)告。
OpenAI 表示，在兩樣工具分別推出的過程中，發(fā)現(xiàn)很多用戶用 Operator 寫的提示詞其實(shí)更像 Deep Research 的任務(wù)，比如「計(jì)劃一次旅行并預(yù)訂」。而 Deep Research 用戶高度呼吁增加「登錄網(wǎng)站、訪問受保護(hù)資源」的能力，其實(shí)是 Operator 早就能做的。于是團(tuán)隊(duì)決定將兩個(gè)產(chǎn)品融合起來。
這和剛剛離職的 OpenAI 的工程師的 OpenAI 的團(tuán)隊(duì)文化其實(shí)很接近：OpenAI 內(nèi)部很看重工程師的自驅(qū)力，常常有多個(gè)類似的項(xiàng)目同時(shí)在推進(jìn)，誰想做誰就能往前推進(jìn)。
此次 Operator 和 Deep Research 的融合看起來還是很成功的。兩個(gè)從不同角度推動(dòng)的 Agent 項(xiàng)目，最后融合起來，有了一些奇妙的化學(xué)反應(yīng)，也避開了只使用瀏覽器的圖形界面去閱讀文字材料的低效，讓最后能形成深度報(bào)告的時(shí)長變得并不高。
OpenAI 也提到了在為模型提供多種工具之后，怎樣訓(xùn)練模型。
仍然是使用強(qiáng)化學(xué)習(xí)。一開始模型會(huì)「笨拙」地嘗試用所有工具解決一個(gè)相對(duì)簡單的問題。也就是說，它剛開始不會(huì)判斷哪個(gè)工具更合適。
通過獎(jiǎng)勵(lì)它那些解決問題更高效、更合理的行為，模型能逐漸學(xué)會(huì)如何用這些工具。在什么情況下用哪個(gè)工具最合適。
比如如果是做創(chuàng)意作品，它會(huì)先搜索公開資源；然后用終端寫代碼、編譯作品；最后用可視化瀏覽器驗(yàn)證結(jié)果。
而在一堆 Demo 中，OpenAI 也輕描淡寫地又拋出了一個(gè)新的基準(zhǔn)測(cè)試成績。
在 Humanities Last Exam（人類的最后一場大考）中，能夠使用瀏覽器、電腦和終端的 Agent 模式模型，已經(jīng)能夠達(dá)到 42%的高分，相比于完全不使用工具的 o3，有一倍的提升。
而在世界范圍內(nèi)也是領(lǐng)先的——Grok 宣布帶工具的 Grok 4 Heavy 在測(cè)試中取得 45% 的成績。
使用工具后的高級(jí)數(shù)學(xué)推理能力，也有了進(jìn)一步的提升。

公布的基準(zhǔn)中，有兩個(gè)是和人類的對(duì)比。
一個(gè)是在網(wǎng)頁中操作的能力（WebArena），一個(gè)是操作電子表格的能力（SpreadsheetBench）。可以看到，兩項(xiàng)基準(zhǔn)中，Agent 模式仍然不如人類，但是網(wǎng)頁操作，已經(jīng)追近了人類水平。
這意味著，即便只是整合這些本身尚不如人類的工具，大模型也能獲得顯著的能力提升。Agent 時(shí)代，大模型能力的提升顯然還有更高的天花板。
03
和 Agent 共處的時(shí)代，確實(shí)來了
毫無疑問，Agent 是 2025 年 AI 領(lǐng)域的絕對(duì)風(fēng)口。
但風(fēng)口之下，用戶的真實(shí)體感往往并不完美：任務(wù)運(yùn)行時(shí)間過長；稍復(fù)雜的任務(wù)就頻頻出錯(cuò)。一位早期 Operator 用戶評(píng)論道「每次點(diǎn)擊和滾動(dòng)，都像在炎熱夏日中游泳。」
此次 OpenAI 將 Operator 與 Deep Research 融合，或許正是為了緩解這種「粘滯感」，讓 Agent 真正跑起來。
當(dāng) OpenAI 自己下場，一個(gè)更直接的問題擺在了所有類似 Manus 的第三方開發(fā)者面前：這究竟是會(huì)催生一個(gè)繁榮的 Agent 應(yīng)用生態(tài)，還是會(huì)直接碾壓所有創(chuàng)業(yè)公司？答案尚不明朗。
而對(duì)于用戶而言，一個(gè)更切身的挑戰(zhàn)隨之而來：隱私和安全。
當(dāng) AI 在我們看不見的虛擬機(jī)里，點(diǎn)開一個(gè)網(wǎng)頁、輸入我們的個(gè)人信息時(shí)，誰來保證安全？
如果它被釣魚網(wǎng)站騙走了我們的信用卡號(hào)，責(zé)任誰負(fù)？
OpenAI 對(duì)此的回應(yīng)是，他們會(huì)采取極其嚴(yán)格的審查和安全措施，但它也希望整個(gè)社會(huì)都能花時(shí)間去適應(yīng)和建立規(guī)范。
Agent時(shí)代，確實(shí)是繼Chat時(shí)代之后，一個(gè)截然不同的新階段。
在Chat時(shí)代，我們學(xué)會(huì)了適應(yīng)AI的“嘴”——我們慢慢習(xí)慣了它的幻覺，并學(xué)會(huì)在它的花言巧語中甄別真?zhèn)巍＿@是一個(gè)關(guān)于“信息可信度”的挑戰(zhàn)。
而在Agent時(shí)代，挑戰(zhàn)則完全轉(zhuǎn)向了AI的“手”。我們需要回答一系列全新的問題：我們究竟愿意多信任 AI？我們又愿意把多大的權(quán)限交出去，讓它代替我們完成多少現(xiàn)實(shí)世界的事情？
而我們與AI的關(guān)系，也將因此被重新定義。
從更宏觀的視角看，Agent 的爆發(fā)也將再次將一個(gè)老問題以更尖銳的方式推到我們面前：當(dāng) AI 能真正「干活」時(shí)，我們的工作會(huì)怎樣？
當(dāng) AI 能獨(dú)立完成一份包含數(shù)據(jù)檢索、圖像查證的復(fù)雜報(bào)告，并直接完成在線預(yù)訂時(shí)，白領(lǐng)們的工作究竟是被賦能加速，還是被徹底威脅？
答案尚在風(fēng)中飄。
但無論我們歡迎、恐懼還是茫然，一個(gè)由 Agent 驅(qū)動(dòng)的、更自動(dòng)化的新時(shí)代，確實(shí)正在加速到來。
*頭圖OpenAI
本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO
極客一問
你認(rèn)為 OpenAI 在 Agent 領(lǐng)域目前領(lǐng)先嗎？
馬斯克：當(dāng)有比人類更聰明的東西出現(xiàn)時(shí)，會(huì)發(fā)生什么呢？
點(diǎn)贊關(guān)注極客公園視頻號(hào) ，

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

無量化，不生活？年輕人掀起“量化生活熱”

英偉達(dá)暴漲，科技股全線拉升！史詩級(jí)IPO，大消息

雙爭光榮榜｜孫鳳霞家庭：用光刻膠材料點(diǎn)亮“中國芯”

ChatGPT新增暖心程度調(diào)節(jié)功能，用戶可自定義AI聊天風(fēng)格

升頂成功！實(shí)現(xiàn)毫米級(jí)精準(zhǔn)就位

全國首個(gè)，正式投運(yùn)！部署2000張國產(chǎn)算力芯片

全站最新

無量化，不生活？年輕人掀起“量化生活熱”

英偉達(dá)暴漲，科技股全線拉升！史詩級(jí)IPO，大消息

雙爭光榮榜｜孫鳳霞家庭：用光刻膠材料點(diǎn)亮“中國芯”

ChatGPT新增暖心程度調(diào)節(jié)功能，用戶可自定義AI聊天風(fēng)格

熱門推薦

無量化，不生活？年輕人掀起“量化生活熱”

英偉達(dá)暴漲，科技股全線拉升！史詩級(jí)IPO，大消息

科技昨夜今晨1220：2025“年度字詞”揭曉

雙爭光榮榜｜孫鳳霞家庭：用光刻膠材料點(diǎn)亮“中國芯”

ChatGPT新增暖心程度調(diào)節(jié)功能，用戶可自定義AI聊天風(fēng)格

升頂成功！實(shí)現(xiàn)毫米級(jí)精準(zhǔn)就位

全國首個(gè)，正式投運(yùn)！部署2000張國產(chǎn)算力芯片

V社逐步在美國停售Steam Deck LCD掌機(jī)，未來主推OLED版

早報(bào)｜曝字節(jié)推進(jìn)AI手機(jī)合作：vivo員工證實(shí)/拼多多架構(gòu)升級(jí)，目標(biāo)「三年再造一個(gè)拼多多」/小米汽車獲北京L3路測(cè)牌照

Andrej Karpathy 年度總結(jié)：Nano Banana最為震撼，指向下一代 AI GUI 的雛形

國內(nèi)唯一專注量子基礎(chǔ)軟件產(chǎn)業(yè)化團(tuán)隊(duì)，中科院技術(shù)轉(zhuǎn)化，曾牽頭科技部重大專項(xiàng)｜36氪首發(fā)

9點(diǎn)1氪丨字節(jié)跳動(dòng)面向全球員工漲薪；飛天茅臺(tái)價(jià)格暴跌，黃牛半個(gè)月虧損超30萬元；上海電信回應(yīng)“羅永浩吐槽網(wǎng)速”

乘聯(lián)會(huì)預(yù)計(jì)12月份新能源車滲透率可達(dá)60%

諾獎(jiǎng)得主Hassabis：5-10年AGI將至，沖擊力將是工業(yè)革命10倍！

Scaling Law沒死！Gemini核心大佬爆料，谷歌已有顛覆性密鑰