夢瑤 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
微軟的IE要是看到如今瀏覽器爭霸的場面,估計(jì)都得用蹩腳的中文來一句:“生不逢時啊生不逢時!!!”
說實(shí)話,它真要這么說了,還真沒人反駁得了。(笑)
畢竟這倆仨月,從Comet到Atlas,家家戶戶都在給自家瀏覽器塞AI。
小編我這陣子也試了好幾款新出的AI瀏覽器,實(shí)不相瞞,體驗(yàn)過程有點(diǎn)坎坷...
一方面,受限于網(wǎng)絡(luò)環(huán)境和電腦系統(tǒng),不少用戶可能第一步就被部分瀏覽器拒之門外了,對吧Open AI?
![]()
另一方面,像Agent這種看起來最實(shí)用的功能,不氪點(diǎn)金大概率用不上…
好在,也不是所有產(chǎn)品都需要上來就掏錢包。
這不,F(xiàn)lowith最近也搞了個新東西:
FlowithOS,全球首款專為AI Agent打造的操作系統(tǒng),重點(diǎn)是Windows用戶也能用,終于不是Mac專屬了:
![]()
它的最大特點(diǎn)是:雖然長得像瀏覽器,但干的卻是執(zhí)行的事兒,能讓Agent自己動鼠標(biāo)、跑流程、干活。
像下面這位網(wǎng)友老哥Andrew Boils,就在FlowithOS上讓Agent整了個資訊自動匯總的文檔。
誒,如果真能讓系統(tǒng)自己把流程跑了,那確實(shí)省心不少。
于是,我這次直接從檢索執(zhí)行、信息整合、語義理解三個維度上手測了一波。
總的來講,F(xiàn)lowithOS確實(shí)具備一定的Agent檢索和執(zhí)行能力,但問題也同樣明顯,比如執(zhí)行節(jié)奏容易被中途打斷等等,離真正能替人省事兒還有點(diǎn)距離…
至于具體表現(xiàn),咱接著往下看。
一手實(shí)測FlowithOS
實(shí)測之前,咱們先弄清楚一件事兒,就是AI瀏覽器到底該具備啥樣的能力。
我粗略梳理了一下,現(xiàn)在市面上的AI瀏覽器差不多可以分為三種:
一種是傳統(tǒng)瀏覽器+AI插件的組合,類似于Chrome、Edge這種,掛個擴(kuò)展,就能搞定摘要、翻譯、問答,但離“智能”還有一段距離。
還有一種是代理型瀏覽器,比如基礎(chǔ)版的Comet,AI能在側(cè)邊欄查資料、整理信息、生成總結(jié)等等,做一些輔助性工作。
再就是像Atlas這種,直接讓Agent上桌,智能體自己就能點(diǎn)網(wǎng)頁、填表單、跑任務(wù)。
而FlowithOS又有點(diǎn)特殊,它不是瀏覽器,而是一個針對Agent做的操作系統(tǒng),所以既保留了瀏覽器“能搜能看”的能力,又能自己去落地執(zhí)行…
![]()
所以這次咱也不走老路數(shù)了,干脆從兩條主線開測:一是Agent應(yīng)該具備的檢索+執(zhí)行能力,二是AI瀏覽器該有的信息整理和語義理解能力。
看看這個能讓Agent自己“下地”干活兒的OS到底幾斤幾兩~
檢索&執(zhí)行能力測試
所有AI瀏覽器都喜歡講一件事就是:俺能自動檢索并執(zhí)行任務(wù)。
但什么才算是好的“執(zhí)行力”呢?
光能點(diǎn)網(wǎng)頁、會搜關(guān)鍵詞當(dāng)然不夠,更重要的是Agent能不能自己串起一整條任務(wù)鏈,執(zhí)行完還能給出結(jié)果來。
![]()
我先給FlowithOS安排的,是一個具備典型鏈?zhǔn)浇Y(jié)構(gòu)的任務(wù)指令,用來驗(yàn)證它是否具備“跑完一整條流程”的基礎(chǔ)執(zhí)行力:
在閑魚上找一臺價格低于2200元的Pocket3,并主動聯(lián)系賣家,問清最低價和購買渠道。
這是一個典型的多步驟、多動作任務(wù),F(xiàn)lowithOS把整個執(zhí)行操作大概拆成以下幾個執(zhí)行環(huán)節(jié):
包括打開指定平臺、發(fā)起關(guān)鍵詞檢索、篩選價格條件、進(jìn)入目標(biāo)詳情頁、發(fā)起對話,問兩個關(guān)鍵問題以及等待回應(yīng)。
![]()
過了大概10分鐘,F(xiàn)lowithOS最終成功鎖定了閑魚上一位標(biāo)價1850元的賣家,并成功把價格砍到了1750元:
![]()
好消息是,它確實(shí)具備了完整行為鏈的執(zhí)行能力,能在不依賴用戶點(diǎn)鼠標(biāo)的情況下,完成從目標(biāo)理解到頁面操作再到發(fā)起互動的一整套流程。
但也不是沒有bug:
首先從用戶體驗(yàn)角度看,它響應(yīng)速度并不算快,步驟一多,電腦發(fā)熱卡頓問題還是非常明顯的…
我們用Agent去替我們做事兒的原因,不是光能給我們省力,還是要能替我們省出時間去干別的事兒。
此外購買邏輯也有一些問題。
我的原話是“貨比三家”,但它顯然在京東看到合適的,就急著讓我先下單了,然后才補(bǔ)了一句:要不咱再去天貓和拼多多看看?
這邏輯就像你讓朋友幫你比價,他路過第一家覺得還行,就嚷嚷著“這家買吧”,你提醒他還沒逛完…
![]()
剛才的Pocket3案例屬于單一對象+互動操作,雖然流程完整,但任務(wù)本身相對簡單,主要考的是線性執(zhí)行能力。
咱這回加點(diǎn)難度,來測試一下Agent執(zhí)行中的多條件任務(wù)拆解能力。
這次它不僅要完成一個目標(biāo)動作,還得在任務(wù)開始前就準(zhǔn)確提取出多個篩選維度,并在執(zhí)行中逐條落實(shí),最終整合出符合所有條件的結(jié)果。
我給FlowithOS的指令是這樣的:
幫我整理一下安居客平臺上鶴崗市總價低于3萬,面積大于45平,朝南戶型的房源信息。
從結(jié)構(gòu)上看,這個任務(wù)的關(guān)鍵在于三個并列篩選條件:價格、面積、朝向。
Agent需要先識別出這些邏輯約束,再在頁面上完成相應(yīng)篩選配置,然后在結(jié)果列表中定位匹配項(xiàng),最后提取出核心信息并返回。
這回它跑了大概5分多鐘,給我挑出了一套面積45平,售價2.5萬的房子:
![]()
但問題馬上就來了——這套房子朝東…人家的免罪理由是:沒找到朝南的房子。
![]()
表面上解釋得過去,但用AI久了的都知道,這種說法十有八九是“沒認(rèn)真找”…
我一時起了疑,決定親自上安居客查一下,果然不到兩分鐘就找到了不止一套符合要求的朝南房源,條件比它給出的還更好。
為了一探究竟,我調(diào)出了它的執(zhí)行路徑,結(jié)果一目了然:它根本沒有勾選“朝向”這個篩選項(xiàng),然后美名其曰說“查無此房”。
這類問題在Agent執(zhí)行過程中算比較常見,明明用戶的意圖是全滿足,系統(tǒng)卻把多目標(biāo)理解成盡量滿足,在任務(wù)拆解時缺乏結(jié)構(gòu)化處理能力,就會出現(xiàn)這種問題。
![]()
感覺不是執(zhí)行不力不足,是執(zhí)行過于自由…
信息整合能力測試
當(dāng)然了,光能檢索信息的Agent還算不上好Agent。
真正的價值還在于它能不能把信息歸納、提煉、總結(jié),讓我們省的不只是點(diǎn)鼠標(biāo)的力氣,還有思考的時間~
這回我給FlowithOS投喂的是B站UP主“食貧道”的一條視頻鏈接,看看它能不能像個編劇助理那樣,從中理出腳本思路、表達(dá)邏輯、節(jié)奏結(jié)構(gòu):
幫我去分析一下“食貧道”在b站的這個視頻,分析出整個視頻的腳本邏輯,有什么值得借鑒的敘事技巧。
![]()
輸出的效果也還不錯,結(jié)構(gòu)完整,分析思路清晰,甚至把“內(nèi)容主線—講法分析—表達(dá)方式”這三板斧都總結(jié)出來了。
但我不知道大家有沒有留意它的最后一句話,我特意放大給大家看:
![]()
我稍微翻譯一下:我給你的結(jié)論是基于標(biāo)題和標(biāo)簽整理的,我只是點(diǎn)進(jìn)了網(wǎng)頁,但視頻我沒看哈。
沒錯,它沒有真正瀏覽視頻內(nèi)容,而是靠頁面附屬信息給出了的分析…
為了確認(rèn)是不是FlowithOS特有的偷懶操作,我又把同樣的提示詞丟給了Atlas,結(jié)果如出一轍:
![]()
但說實(shí)話,出現(xiàn)這結(jié)果其實(shí)并不意外,這屬于Agent操作中一種非常常見的處理方式:元數(shù)據(jù)提煉。
它主要參考的是標(biāo)題、副標(biāo)題和Tag,再結(jié)合網(wǎng)頁結(jié)構(gòu)去做總結(jié),根本沒有進(jìn)入視頻內(nèi)容層面去瀏覽和歸納信息。
從當(dāng)前主流大模型的能力來看,不管是ChatGPT還是Gemini,在基礎(chǔ)模式下確實(shí)沒法像人那樣把視頻完整看完再提煉節(jié)奏和表達(dá)。
但真正的問題是:它幾乎不會明著告訴你這一點(diǎn)…人家不會說“我其實(shí)沒看”,它只會說“你要的分析我做好了”。
而作為用戶,我們很可能看到一份結(jié)構(gòu)清晰的總結(jié)就直接信了,根本意識不到:這其實(shí)是AI靠“標(biāo)題+標(biāo)簽+副標(biāo)題”拼湊出來的偽邏輯。
這就像你問朋友:“你看完這片了嗎?”
他說:“我翻了豆瓣短評,應(yīng)該差不多懂了。”
![]()
語義理解能力測試
作為一個有著基礎(chǔ)AI能力的操作系統(tǒng),起碼要能聽得懂人話,這方面FlowithOS的表現(xiàn)確實(shí)出乎意料地好…
我這次給出的是一道需要揣測文本信息并能體現(xiàn)中華文化博·大·精·深的問題:
我有一個朋友快過生日了,她的MBTI是isfj,她上班有點(diǎn)忙經(jīng)常加班,平時喜歡一個人呆著,家里還養(yǎng)了只小貓,你幫我給她挑一個適合她的生日禮物。
這是一道典型的共情型場景模擬題,考的是語義理解+知識聯(lián)想+價值判斷+情緒感知的綜合能力。
大概過了十分鐘,Agent幫我選出來了兩個禮物,一個是香薰套餐,一個是筆記本:
![]()
檢索流程結(jié)束之后,Agent給出了它選擇這兩個商品作為禮物的理由:
![]()
說實(shí)話,蠻讓我震驚的,不是因?yàn)锳gent準(zhǔn)確識別了朋友的MBTI,而是能夠把不同的信息串在一起進(jìn)行考量。
大家看第三點(diǎn),Agent在篩選完香薰后,留意到很多香薰可能會對貓咪有毒,所以最終才選擇了能diy定制的筆記本,而且筆記本本身也符合isfj內(nèi)心細(xì)膩又務(wù)實(shí)的特點(diǎn)。
說實(shí)話,測到這兒,它在我心里最大的加分項(xiàng)已經(jīng)不是執(zhí)行力,而是對復(fù)雜語義的理解能力了,確實(shí)有兩下子…
小小OS,花樣不少
除了執(zhí)行任務(wù)的動手能力,F(xiàn)lowithOS還有些“動腦子”的設(shè)計(jì),值得拿出來說說。
比如它頁面里那個不太起眼的小模塊——Skill,看名字是不是有點(diǎn)熟悉?(對,Claude前陣子也剛上線了同名功能)
在FlowithOS里,Skill不是那種外掛插件或者額外能力,它是操作系統(tǒng)層面的一部分,是專門用來教Agent怎么把事一步步辦成的“說明書”。
![]()
像上面這張圖,就是一個Skill模板的示意,任務(wù)是上傳一條YouTube視頻。整個流程從打開網(wǎng)頁、上傳視頻文件、填寫標(biāo)題描述,到設(shè)置權(quán)限選項(xiàng),全都能由Agent自動跑完。
換句話說,它不是教你怎么用YouTube,而是教Agent替你去操作YouTube,下次遇到類似任務(wù),Agent就能照著記憶直接上手了,既提速,也提穩(wěn)。
此外,F(xiàn)lowithOS的記憶功能也值得拿來說說,它可以根據(jù)用戶的指令習(xí)慣、偏好和風(fēng)格來不斷優(yōu)化操作系統(tǒng)自身,你使用它的次數(shù)越多,它就越會進(jìn)化并學(xué)會成為你自己:
![]()
在Online-Mind2Web基準(zhǔn)測試?yán)铮現(xiàn)lowithOS的綜合測評甚至還把Gemini和Atlas都給比下去了:
![]()
當(dāng)然,測試歸測試,真實(shí)使用感和測試數(shù)據(jù)還是兩碼事。
這輪實(shí)測下來,實(shí)話實(shí)說:FlowithOS現(xiàn)在離“完全成熟”還有點(diǎn)距離。
偶爾卡殼、加載中斷、網(wǎng)頁打不開、結(jié)果答非所問這些小毛病,還是會遇到,尤其當(dāng)任務(wù)復(fù)雜度一上來,它的腦子也不是每次都在線。
但又不得不承認(rèn),它確實(shí)不太一樣。
它不是把AI插在瀏覽器里,而是把瀏覽器本身變成了一個能執(zhí)行任務(wù)的Agent空間,操作的“鼠標(biāo)和雙手”不再是用戶,而是Agent本身。
每一次執(zhí)行、每一條指令、每一個點(diǎn)錯、點(diǎn)對的動作,都會被系統(tǒng)記住,并沉淀成你的專屬使用方式。
所以盡管還有不少小毛病,但這東西,它確實(shí)值得等等看,沒準(zhǔn)真有那么一天,咱可能連打開電腦這一步都可以省了…(doge)
最后問一嘴,大家都裝AI瀏覽器了嗎,都用它來干點(diǎn)啥?
如果有什么“不想自己動手”的但還好奇想測測的AI產(chǎn)品,歡迎評論區(qū)留名,我們可以安排挨個測!





京公網(wǎng)安備 11011402013531號