
沒想到在華為 Mate 80 系列、三星首款三折疊接連發(fā)布的一周里,最火的會是搭載豆包手機助手技術預覽版的中興 nubia M153。
發(fā)售即售罄就不說了,首批工程機在二手平臺上普遍加價數百元轉賣。相比官方 3499 元的定價,市場需求確實旺盛。
盡管豆包手機助手官方多次強調,目前的技術預覽版并不面向普通的消費者。其定位更像是一個技術展示和生態(tài)探索的實驗田,吸引開發(fā)者和技術發(fā)燒友參與體驗。

但這根本擋不住大眾體驗的熱情。除了點外賣發(fā)帖子這些基操,還有網友用它 10 分鐘投了 30 份簡歷。
不過爭議也隨之而來,微信、淘寶等一眾 App,開始通過「環(huán)境異常檢測」等門檻把豆包手機助手攔在門外。
官方目前也調整部分 AI 操作手機的能力,官方表示希望「推動形成更清晰、可預期的規(guī)則」,避免一刀切否定用戶合理使用 AI 的權利。
羅永浩則發(fā)文力挺,稱這是誰都攔不住的技術革命,將來人們會記住這歷史性的一天。榮耀表態(tài)歡迎,而魅族廠商則表示期待深入合作,打造更繁榮的生態(tài)。

而在國內出圈后,豆包手機助手甚至火到了海外,在 X 平臺上,一堆老外都在瘋狂討論這事,甚至有人直接給它冠上了「另一個 DeepSeek 時刻」的稱號。
海外網友:第一款真正意義上的智能手機
這評價,可不是隨便給的。
雪牛資本(Snow Bull Capital)CEO 泰勒奧根(Taylor Ogan)直接在平臺上發(fā)了一長串體驗報告,興奮勁兒都快從屏幕里溢出來了。
他的評價很直白:這是全球第一款真正意義上的智能手機。

在豆包手機助手的協助下,AI 能完全控制手機——能「看懂」界面、自己選應用或下載 App、點擊按鈕、輸入文字、撥打電話,甚至還能執(zhí)行一整串多步驟任務鏈。
拿到手機后,他整了不少花活兒。比如隨手拍張蔚來換電站問「這是啥」,AI 秒答。

拍個酒店門口,豆包不僅能識別出是哪家酒店,還能根據 Ogan 的需求預定房間,并查詢寵物政策。

打輛無人駕駛出租車去公園,豆包能夠規(guī)劃好路線,用最近的上車點完成預約。Ogan 全程只需要用語言表達意圖,其它都交給豆包。

用它下單兩杯飲料后,外賣無人機很快就把訂單飛送到附近儲物柜。

走在街上, Ogan 拍了家新開的店,問它是不是本地的品牌,豆包也能查詢工商和商標信息,然后果斷回答:「是的」。

全程 AI 自己干活,人就負責躺平。
一頓絲滑操作下來,海外網友們大為震驚。

隨便翻翻評論區(qū),清一色的點贊聲。有網友感慨:「此刻,操作系統變成了管家,手機變成了執(zhí)行者,而不再只是工具。」有網友猝不及防地表白:「我本來就喜歡豆包,現在更愛它了。」
還有網友直接化身「哇塞哥」:
這是下一級別的東西。我在企業(yè)級見過類似的東西,Agent 控制你的 PC 并執(zhí)行任務,但在手機上有這種技術真的很有意思。想象一下,當谷歌開始在 Pixel 設備和幾乎所有 Android 手機上這樣做時會發(fā)生什么……

Pixel 內心 belike,不對勁,怎么感覺有人在點我?
當然,質疑聲也有。有人問:「但它真的智能嗎?這模型能在設備上本地運行嗎?」Taylor Ogan 的回應是:「它太智能了。你可以選擇在設備端運行或云端運行。」

在 Reddit 平臺上,討論同樣火熱。
有網友表示:「只要這些功能是設備本地的(不使用云服務),并且使用是可選的,我就支持這個。」還有網友一針見血地點出了 AI 的真正意義:「這就是 AI 應該做的事情,為個人節(jié)省時間,而不是試圖消除個人的價值。」

有一說一,在豆包手機助手發(fā)布之后,網友分享在 X 平臺上的玩法,也是一個比一個「邪修」。有用豆包點咖啡,也有讓豆包 AI 操作安卓機,模擬人手滑頁面,主打一個全流程自動化。
還有網友用豆包手機助手下單買了個椰子,由于沒夠起送價,豆包貼心地幫博主選了一個 1.99 元的一包食用鹽來湊單。

APPSO 在之前對豆包手機助手的體驗提到,我最直觀的感受是,手機變「薄」了,它把各個 App 的能力都「拍扁」了,交互更加自然、直觀和高效。
問題來了,這是怎么做到的?這和「phone use」智能體又有什么不同?
在用了一周豆包手機助手后,APPSO 也扒出了背后更多的技術細節(jié)。
我扒出了豆包手機助手操作手機的秘密
在豆包手機助手發(fā)布之前,手機行業(yè)其實已經折騰 AI+ 好一陣子了。
手機硬件廠商試圖通過系統層級的 AI 能力,打破應用間的壁壘,實現「一句話辦事」。比如華為、小米、vivo、榮耀等主流手機廠商的 AI 智能體,都曾在不同場合展示過自動發(fā)送消息、執(zhí)行多步驟任務等功能。
這些演示雖然在具體場景和實現方式上略有不同,但核心邏輯都是一致的:通過 AI 大模型理解用戶意圖,并結合模擬用戶操作,從而實現跨應用的自動化任務執(zhí)行。
聽著挺玄乎,但實際體驗嘛……咳咳,還是有不小的提升空間。

而豆包手機助手的下場,進一步掀起了全網的討論。更重要的是,根據我之前的體驗,豆包手機助手的確是真正意義上把 AI 操作手機這件事做到了可用級別,不局限于幾個場景,而是能夠流暢自然地通過圖形界面操作完成長任務、復雜任務。
APPSO 在知名預印本平臺 ArXiv 發(fā)現了一篇由字節(jié)團隊發(fā)布的技術報告,里面的信息或許能解釋其中的關鍵原理。
附上地址:https://arxiv.org/abs/2509.02544

豆包手機助手的圖形界面操作能力,來自字節(jié)跳動 Seed 團隊開發(fā)的 UI-TARS 模型。它把屏幕視覺理解、邏輯推理、界面元素定位和操作整合在一起,其開源版本是目前最受歡迎的開源多模態(tài)智能體模型。
根據 UI-TARS 2.0 技術報告,這個模型的厲害之處在于,它不是簡單的模塊化拼湊,而是采用了端到端的學習方式,將感知、推理、行動和記憶整合在一起。

數據不會騙人,在 GUI 基準測試中,UI-TARS-2 的成績相當能打:
Online-Mind2Web 得分 88.2,
OSWorld 得分 47.5,
WindowsAgentArena 得分 50.6,
AndroidWorld 得分 73.3
這些成績不僅明顯優(yōu)于前一代模型,還在多個場景中超越了 Claude 和 OpenAI 等強勁基線模型。其中 AndroidWorld 的 73.3 分更是比 OpenAI CUA-o3 模型高出 20 多分,展現出強大的競爭力。

在游戲環(huán)境中,UI-TARS-2 在 15 款游戲組成的測試集中取得了平均標準化得分 59.8,約為人類水平的 60%。相比 OpenAI CUA 和 Claude Computer Use,UI-TARS-2 的表現分別提升了 2.4 倍和 2.8 倍。
這是什么概念?就是 AI 打游戲已經快接近普通人類玩家水平了。

在 LMGame-Bench 中,它依然能與當前最前沿的閉源模型掰手腕,進一步證明其在長時序游戲推理中的穩(wěn)健性。
更厲害的是,UI-TARS-2 不僅能處理 GUI 任務,還能通過 GUI-SDK 擴展能力,與系統級資源(如終端和外部工具)集成。在信息檢索任務(BrowseComp 29.6 分)、軟件工程任務(Terminal Bench 45.3 分、SWE-Bench Verified 68.7 分)上都有競爭力。
一個模型走天下,這就是通用性的體現。
值得一提的是,通過接近豆包團隊的人士透露,豆包手機助手用的 UI-TARS 是私有模型版本,性能比開源版更強,還針對手機場景做了專門優(yōu)化。這或許也解釋了為啥豆包手機助手實際體驗這么絲滑。
豆包手機助手,確實有點技能在身上的。
寫在最后:科技產品的「異類」可以多一些
作為一個長期關注科技產品的編輯,今年令我十分感慨,在這個恨不得把「萬物皆塞入手機」的行業(yè),卻出現兩個異類,分別在設計與交互的維度上,走向了極致。
一個是 iPhone Air,當 Pro 系列不可避免地走向堆料的終局,這種對輕薄的偏執(zhí),在參數黨眼中或許別無他用,甚至讓人一時分不清這是倒退還是進化,直到你把它握在手里,原來,輕盈本身就是一種功能。

而豆包手機助手則站到了交互界面的另一個極端,它不要你去找服務,而是讓服務來找你。甚至要掀了 GUI (圖形用戶界面)的桌子,有一天那塊屏幕可能都不是必需的。

一個是硬件,一個是軟件,但它們殊途同歸。iPhone Air 削減了物理上的累贅,豆包手機助手剝離了交互上的繁瑣。
你會發(fā)現,當 AI 公司參與到硬件的設計中,他們對交互設計的思路都和傳統硬件廠商有所不同。
OpenAI 也正在和前蘋果傳奇設計師 Jony Ive 打造 AI 硬件,Sam Altman 就曾透露這塊設備希望重新定義交互:不需要一堆 app,而是 AI 作為主界面與操作層。
當然,歷史告訴我們這類新技術落地必然面臨陣痛:適配、隱私、生態(tài)……還有各方利益的博弈。先進技術和廣泛應用的「雙向奔赴」尚需時日,但也是大勢所趨。

OpenAI 聯創(chuàng) Andrej Karpathy 前段時間也表達了自己對交互未來的預判:
人機深度協作的時代,那些用戶界面(UI)極其復雜(有大量滑塊、開關、菜單)、不支持腳本、并且建立在不透明的、自定義的二進制格式上的產品,注定是死路一條(ngmi)。
未來,AI 在理解和操作人類圖形界面(UI/UX)方面會越來越強(比如像 Operator 這樣的前沿項目),但我懷疑,那些只想坐等這一未來實現,而不主動與當前技術發(fā)展水平「雙向奔赴」、做出改變的產品,它們的下場不會太好。
敢于吃螃蟹這件事本身,就已經算是值得瑞思拜了,我們也希望看到更多「異類」出現在科技行業(yè)。





京公網安備 11011402013531號