![]()
萬(wàn)物 Agent 的時(shí)代,Manus 又快了一步。
作者|Li Yuan
編輯|靖宇
搬到新加坡的 Manus,對(duì)通用 AI Agent 的思考沒(méi)有停止。
在今天在新加坡舉行的 Stripe Tour 上,Manus 聯(lián)合創(chuàng)始人兼首席科學(xué)家季逸超(Peak)與 Stripe 亞太地區(qū)及?本?席營(yíng)收官 Paul Harapin 進(jìn)行了對(duì)談。
席間,ManusAI披露了近期的經(jīng)營(yíng)數(shù)據(jù),Manus AI 年度化的經(jīng)常性收入(RRR,Revenue Run Rate)已經(jīng)達(dá)到 9000 萬(wàn)美元,很快即將上億。
Manus AI 的肖弘還特意在即刻表示,Revenue Run Rate 指的是當(dāng)月的 Revenue *12,并不等于 Cash Income。很多 AI 產(chǎn)品都會(huì)有年付選項(xiàng),這部分只能算作預(yù)存款,而不能記為 Revenue。「如果我們按照這種披露,可以算出一個(gè)一個(gè)比 1.2 億美金更大的數(shù)。」肖弘表示。
除了經(jīng)營(yíng)數(shù)據(jù)之外,季逸超還分享了 Manus 團(tuán)隊(duì)是如何思考通用 Agent 的的下一步的,以及 AI Agent 和 AGI 未來(lái)到底有什么區(qū)別。
「現(xiàn)在大家?guī)缀醢岩磺卸冀凶?Agent。比如一個(gè)麥克風(fēng),有人會(huì)叫它是「有環(huán)境感知的收音 Agent。」季逸超開玩笑地講道。
他也給出了拓展通用 Agent 能力下一步的兩條主線:其一,用多 Agent 協(xié)作把執(zhí)行規(guī)模做寬(如在大規(guī)模調(diào)研里衍生出上百個(gè)并行的子 Agent);其二,給 Agent 打開更大的「工具面」,不把能力綁死在少數(shù)預(yù)置 API,而是像程序員一樣調(diào)用開源生態(tài)、安裝庫(kù)、甚至在可視化后看圖自檢并回改。
季逸超還提到,今天的數(shù)字世界仍按「給人用」的范式建造——非 API 化網(wǎng)頁(yè)、CAPTCHA、流程「小游戲化」帶來(lái)大量摩擦,瓶頸更像生態(tài)與制度約束,而非模型智力。
這也是 Manus 參與 Stripe 活動(dòng)的原因之一:雙方正推進(jìn)在 Agent 內(nèi)完成支付,把「研究—決策—下單/結(jié)算」連成閉環(huán),用基礎(chǔ)設(shè)施協(xié)作來(lái)消解世界的摩擦。
以下為對(duì)話精華,經(jīng)極客公園編輯整理:
問(wèn):給觀眾簡(jiǎn)單介紹一下你自己吧。你最近關(guān)于「上下文工程」的博客非常鼓舞人心,我覺(jué)得對(duì)于在座任何正在開發(fā)AIAgent 的人來(lái)說(shuō)都是必讀的。我每次去和工程師們吃午飯時(shí),他們總是在談?wù)撨@個(gè),所以我現(xiàn)在只能坐到別的地方(笑)。但對(duì)于現(xiàn)場(chǎng)可能不太熟悉 Manus 的人,你能分享一下你的經(jīng)歷和愿景嗎?
答:謝謝 Paul。很高興能來(lái)到。Manus 在構(gòu)建一個(gè)通用 AI Agent。
很多研究機(jī)構(gòu)和公司,其實(shí)在嘗試打造一個(gè)大腦——打造一個(gè)大語(yǔ)言模型。但我們認(rèn)為,從消費(fèi)者的角度來(lái)看,這其實(shí)并不好。AI 應(yīng)該能真正采取行動(dòng),完成事情,所以我們構(gòu)建了 Manus。
我們的方式,是讓 AI 可以使用人類歷史上最偉大的發(fā)明之一——通用計(jì)算機(jī)。給了 AI 計(jì)算機(jī),它能做人類能做到的所有事。Manus 能真正完成任務(wù)。比如它可以幫你做演示文稿、幫你規(guī)劃一次旅行,甚至能幫你運(yùn)營(yíng)社交媒體——雖然我并不推薦你真的這樣做。
我們的用戶真的很喜歡 Manus。我們?cè)谌路莅l(fā)布了 Manus,現(xiàn)在已經(jīng)實(shí)現(xiàn)了大約 9000 萬(wàn)的年度化的經(jīng)常性收入(RRR,Revenue Run Rate),很快就會(huì)突破 1 億。
我覺(jué)得這對(duì)我們這樣一個(gè)小型創(chuàng)業(yè)公司來(lái)說(shuō)非常巨大。但更重要的是,這表明 AI Agent 已經(jīng)不再只是一個(gè)研究領(lǐng)域的流行詞,而是真正在被應(yīng)用,落地生根。
我可以和大家分享一個(gè)我們構(gòu)建 Manus 過(guò)程中的小故事。
我們其實(shí)從 Agent coding 的應(yīng)用中得到了很多靈感。比如像 Cursor 這樣的 AI 編程產(chǎn)品,之前已經(jīng)吸引了很多關(guān)注。
作為工程師,我們自然會(huì)使用 Cursor。但讓我們驚訝的是,公司里很多非工程師同事也在用 Cursor。當(dāng)然,他們并不是在寫軟件,而是用它來(lái)做數(shù)據(jù)可視化,甚至寫一些文章。他們會(huì)忽略左邊的代碼部分,只是跟 AI 對(duì)話來(lái)完成工作。
這讓我們意識(shí)到:我們應(yīng)該把這種方式泛化,賦能非程序員。這就是 AI 的一個(gè)用例。
問(wèn):我們?cè)絹?lái)越常聽(tīng)到人們談?wù)?/strong>AIAgent 和 AGI。你能不能幫我們更清楚地區(qū)分這兩個(gè)概念?AI Agent 和 AGI 對(duì)你和 Manus 來(lái)說(shuō)各自意味著什么?
答:我們認(rèn)為這是一個(gè)非常好的問(wèn)題。
現(xiàn)在大家?guī)缀醢岩磺卸冀凶觥窤gent」。比如一個(gè)麥克風(fēng),有人會(huì)說(shuō)它是「有環(huán)境感知的收音 Agent「。
但至少我們主張,Agent 應(yīng)該是應(yīng)用型 AI 的一個(gè)子集。我們不妨退一步,看看常見(jiàn)的 AI 應(yīng)用類別。
大多數(shù)人已經(jīng)熟悉兩類:一類是聊天機(jī)器人,比如 ChatGPT;另一類是生成式工具,比如 MidJourney 或 Sora。在這些系統(tǒng)中,通常只有兩個(gè)角色:用戶和模型。你和模型交互,得到輸出。而 Agent 的不同在于,它除了用戶和模型,還引入了第三個(gè)關(guān)鍵元素——環(huán)境。
這個(gè)「環(huán)境」的概念會(huì)因智能體類型不同而變化,比如在設(shè)計(jì)型 Agent 里,環(huán)境可能是一個(gè)畫布或一段代碼;而在 Manus 這里,我們的目標(biāo)是讓 Agent 出現(xiàn)在虛擬機(jī)甚至整個(gè)互聯(lián)網(wǎng)中。這樣 Agent 就能觀察環(huán)境,決定下一步該做什么,并通過(guò)行動(dòng)來(lái)改變環(huán)境。這讓它非常強(qiáng)大。
比如在 Manus,你可以表達(dá)需求,它會(huì)打開瀏覽器、發(fā)布網(wǎng)頁(yè)、幫你訂一張機(jī)票。我很喜歡這個(gè)例子,因?yàn)殡m然訂機(jī)票聽(tīng)起來(lái)很簡(jiǎn)單,但這其實(shí)是 AI 在直接改變現(xiàn)實(shí)世界——結(jié)果不是模型的輸出,而是你手里的機(jī)票。AI 真正介入了你的世界。這就是我們所說(shuō)的 Agent。
簡(jiǎn)單來(lái)說(shuō),Agent 就是能代表用戶與環(huán)境交互的 AI 系統(tǒng)。
至于 AGI,這個(gè)詞也經(jīng)常被提到,很多人把它等同于超級(jí)智能。我們認(rèn)為,AGI 是一種能利用 AI 模型的通用能力,在不經(jīng)過(guò)特別設(shè)計(jì)的情況下完成許多任務(wù)的系統(tǒng)。
我們認(rèn)為「Agent coding」其實(shí)是通往 AGI 的一條路徑。它不是一個(gè)垂直領(lǐng)域的能力,而是如果你把它賦予計(jì)算機(jī),它幾乎能在計(jì)算機(jī)上做任何事。所以對(duì)我們來(lái)說(shuō),AGI 的條件就是要構(gòu)建足夠完善的環(huán)境,讓這種能力得以發(fā)揮。
問(wèn):AI今天究竟在哪些場(chǎng)景中真正發(fā)揮了作用?未來(lái)會(huì)在哪些地方發(fā)揮作用?什么時(shí)候會(huì)出現(xiàn) iPhone 時(shí)刻?
答:就 Agent 而言,如果單看模型能力的話,現(xiàn)在的旗艦?zāi)P鸵呀?jīng)非常驚人了,幾乎是「超人」級(jí)別的。它們可以在數(shù)學(xué)競(jìng)賽或邏輯推理上勝過(guò)我們大多數(shù)人。
但我認(rèn)為,模型仍然像是「瓶子里的大腦」,如果想真正發(fā)揮力量,就必須讓它們與真實(shí)世界交互、觸達(dá)現(xiàn)實(shí)。但不幸的是,這正是問(wèn)題開始的地方。
比如你讓一個(gè) AI 去做一些事務(wù)性的任務(wù),它在重復(fù)性任務(wù)上確實(shí)很擅長(zhǎng)。比如像 Deep Research 這樣的產(chǎn)品,它只是聚合信息然后給出一個(gè)結(jié)果,它的輸出只是簡(jiǎn)單地出現(xiàn)在那里。
舉個(gè)例子,現(xiàn)在幾乎所有東西都是為人類設(shè)計(jì)的,不只是物理世界,甚至數(shù)字世界也是這樣。比如網(wǎng)頁(yè)工具,它們就像小游戲一樣,沒(méi)有提供 API 或標(biāo)準(zhǔn)接口。驗(yàn)證碼 CAPTCHA 無(wú)處不在,處處在攔截 Agent。
所以我認(rèn)為 AI 在封閉的自包含任務(wù)中表現(xiàn)很好,但一旦涉及真實(shí)世界,就會(huì)遇到障礙。
未來(lái)什么時(shí)候能出現(xiàn) iPhone 時(shí)刻?我覺(jué)得這并不是技術(shù)問(wèn)題,而是更像是一種制度性限制。這不是像我們這樣的 Agent 創(chuàng)業(yè)公司能夠單獨(dú)解決的事情。
我認(rèn)為這需要一個(gè)漸進(jìn)的轉(zhuǎn)變,要求整個(gè)生態(tài)系統(tǒng)共同進(jìn)化。這也需要像 Stripe 這樣的公司在基礎(chǔ)設(shè)施層面發(fā)力。比如我們正在集成新的 stripe 的 Agentic 支付 api。大家共同努力。
問(wèn):那我們能不能具體談?wù)動(dòng)脩粼谑褂?Manus 時(shí)的一些典型場(chǎng)景?他們是如何使用的?這其中體現(xiàn)出了怎樣的力量?
答:是的,我們雖然來(lái)自當(dāng)前這一代 Agent,但已經(jīng)看到很多很棒的用例。
比如說(shuō),我們剛剛搬到新加坡,需要雇傭房產(chǎn)中介來(lái)幫我們找住所。是真人 Agent(笑)。
而現(xiàn)在這些中介已經(jīng)在使用 Manus:他們會(huì)根據(jù)客戶的需求,用 Manus 來(lái)分析公司所在地、員工想住的區(qū)域,并生成相應(yīng)的推薦。
我覺(jué)得這很有意思,因?yàn)檫@屬于一種「長(zhǎng)尾需求」。一般來(lái)說(shuō),并沒(méi)有專門的 AI 產(chǎn)品是為這種具體場(chǎng)景設(shè)計(jì)的,但由于 Manus 是一個(gè)通用型 Agent,它就能滿足這些需求。我們認(rèn)為長(zhǎng)尾需求非常值得關(guān)注。
從宏觀角度看,它可能是長(zhǎng)尾,但對(duì)具體用戶而言,這正是他們的日常工作。這種場(chǎng)景特別有價(jià)值。
這就像今天的搜索引擎格局一樣。如果你只是搜索一些常見(jiàn)的內(nèi)容,不管用 Google 還是 Bing,結(jié)果質(zhì)量差不多。那為什么人們會(huì)選擇其中一個(gè)?可能是因?yàn)槟硞€(gè)搜索引擎在特定時(shí)刻給了他們更合適的結(jié)果。而如果你搜索的是非常個(gè)性化或?qū)I(yè)化的內(nèi)容,就更能體現(xiàn)差異。所以我們認(rèn)為通用型 Agent 的優(yōu)勢(shì)就在這里。
那如何讓它更好呢?我們思考了很久,因?yàn)槲覀冋J(rèn)為一切都繞不開編程。如果你把計(jì)算機(jī)交給 AI,那么它與環(huán)境交互的方式其實(shí)就是通過(guò)編程。
我們認(rèn)為可以從兩方面改進(jìn)。第一是規(guī)模化。但如果你能把 Agent 的能力放大一百倍會(huì)怎樣呢?
最近 Manus 剛剛發(fā)布了一個(gè)新功能,叫做 Wide Research。它的基本思路是允許一個(gè) Agent 再衍生出上百個(gè) Agent 一起去完成任務(wù)。你知道的,如果只是讓AI幫你做一些小事,很多時(shí)候你自己也能完成。但如果任務(wù)非常龐大,你一個(gè)人根本不可能完成,比如需要做大規(guī)模的研究,這時(shí)候讓上百個(gè) Agent 并行去做,就會(huì)變得非常強(qiáng)大。
其次,我們還需要讓 Agent 更靈活地使用計(jì)算機(jī)使。比如,如果你只給一個(gè) AI Agent 設(shè)置了預(yù)設(shè)工具,那么它的行動(dòng)空間就被限制在這些工具里。但想象一下,如果你是一個(gè)程序員,你有整個(gè)開源社區(qū)的資源可以調(diào)用。
比如你在 3D 打印的時(shí)候,直接修改模型的參數(shù)很困難,但是你如果能找到 GitHub 上的合適的庫(kù),直接安裝就能解決你的問(wèn)題了。在 Manus,我們?cè)趦?yōu)化通用性,并且提出了一個(gè)概念,叫做「工具的網(wǎng)絡(luò)效應(yīng)」。
有一個(gè)很有意思的例子:很多用戶在用 Manus 做數(shù)據(jù)可視化。你們知道,在亞洲有時(shí)候會(huì)遇到問(wèn)題,比如在圖表中顯示中文時(shí)可能會(huì)出現(xiàn)字體錯(cuò)誤。或許有些專業(yè)用戶會(huì)寫一些硬編碼規(guī)則,比如在輸出韓文時(shí)應(yīng)該用哪種字體。但這種方式會(huì)讓系統(tǒng)越來(lái)越僵化。
我們采取的辦法是給系統(tǒng)增加了一個(gè)很簡(jiǎn)單的能力:查看圖像。結(jié)果很驚喜——因?yàn)榻裉斓哪P鸵呀?jīng)很聰明了,它們會(huì)在生成可視化圖像后自己檢查,并意識(shí)到錯(cuò)誤,然后再自動(dòng)修正。我們發(fā)現(xiàn),增加工具的靈活性比硬編碼規(guī)則能解決更多的問(wèn)題。
問(wèn):這是一個(gè)令人興奮的時(shí)代。我真的很激動(dòng),只希望自己能再年輕到三十歲(笑)。提到醫(yī)學(xué)研究的,我知道 Manus 在這方面也很強(qiáng)。你們觀察到有些用戶在使用 Manus 研究醫(yī)療嗎?
答:很多人已經(jīng)在用 Manus 做研究,不僅限于醫(yī)學(xué)研究。我們覺(jué)得這很有意思,因?yàn)楝F(xiàn)在確實(shí)有很多所謂的「深度研究」產(chǎn)品,它們會(huì)幫你收集大量信息并做一些分析,但最后只給你一個(gè) markdown 文件或文檔。這遠(yuǎn)遠(yuǎn)不夠。
很多時(shí)候,研究人員真正需要的,是能夠直接交付給老板或團(tuán)隊(duì)的成果。所以我們?cè)?Manus 上加強(qiáng)了研究結(jié)果的輸出。例如在醫(yī)學(xué)研究中,很多時(shí)候需要生成正式的報(bào)告,比如幻燈片報(bào)告之類的東西。因此我們必須優(yōu)化 AI 的輸出能力,以滿足研究人員的需求。這是一種「工具化」的體驗(yàn)。
比如現(xiàn)在很多用戶會(huì)先用 Manus 做研究,然后直接生成一個(gè)網(wǎng)站。你會(huì)覺(jué)得這和傳統(tǒng)的網(wǎng)站搭建方式完全不同。
要知道,搭建一個(gè)網(wǎng)站本身其實(shí)不難,難的是如何確保數(shù)據(jù)的可靠性和準(zhǔn)確性。所以我們認(rèn)為,最好能在一次會(huì)話、一個(gè)共享的上下文中完成整個(gè)流程。這樣,你的研究、你的見(jiàn)解就能無(wú)縫轉(zhuǎn)化為最終成果。這就是我們?cè)?Manus 里所做的事情。
問(wèn):很多國(guó)家都在討論一個(gè)話題:在AI時(shí)代,人類的未來(lái)和經(jīng)濟(jì)影響。你怎么看待就業(yè)被取代?又會(huì)出現(xiàn)哪些新的工作機(jī)會(huì)?
答:我們的朋友和投資人也經(jīng)常問(wèn)我們這個(gè)問(wèn)題。當(dāng)我們推出 Manus 時(shí),最初認(rèn)為如果能構(gòu)建這樣一個(gè) Agent,它就能幫人們節(jié)省很多時(shí)間,讓大家輕松賺錢。
但實(shí)際上,我們發(fā)現(xiàn)這個(gè)愿景并沒(méi)有完全實(shí)現(xiàn)。通過(guò)大量用戶調(diào)研,我們發(fā)現(xiàn)用戶在使用之后,他們反而工作得更多了。因?yàn)樗麄冏兊酶咝Я耍麄儗?shí)際上能做更多他們本來(lái)就很擅長(zhǎng)的事情。這是第一點(diǎn)。
其次,我們認(rèn)為 Manus 還打開了一個(gè)全新的空間。我們一直在討論虛擬機(jī)和云計(jì)算。我們覺(jué)得 Manus 正在扮演一種「?jìng)€(gè)人云計(jì)算平臺(tái)」的角色。比如云計(jì)算已經(jīng)存在幾十年了,但它更多是工程師的特權(quán),只有我們能通過(guò)編程來(lái)調(diào)用云的力量。普通知識(shí)工作者無(wú)法使用。
但現(xiàn)在有了像 Manus 這樣的 AI Agent,人們可以用自然語(yǔ)言下達(dá)指令,讓 AI 去執(zhí)行。這等于解鎖了一種全新的生產(chǎn)力。這就是我們所帶來(lái)的。
而最后,關(guān)于「替代」,我認(rèn)為其實(shí)很難。比如房產(chǎn)中介,他們每天都在用 Manus 完成日常工作。但你知道,AI 永遠(yuǎn)無(wú)法替代中介面對(duì)客戶時(shí)的那種溝通方式。我們是一家 AI 公司,甚至 Manus 的發(fā)布視頻都是由 Manus 寫的腳本,但視頻里出現(xiàn)的還是我,因?yàn)檫@是關(guān)于信任的事情。而信任,是不能完全交給 AI 的。
*頭圖stripe
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO
極客一問(wèn)
你覺(jué)得 Agent 能突破機(jī)器人和支付限制嗎?
小米二季度財(cái)報(bào)發(fā)布,營(yíng)收 1160 億元,經(jīng)調(diào)整凈利潤(rùn) 108 億元。
點(diǎn)贊關(guān)注極客公園視頻號(hào),





京公網(wǎng)安備 11011402013531號(hào)