聽潮Ti2024 郭佳哿
發布僅一周時間,豆包手機助手就已經引來輿論層面的幾輪沖擊。
12月5日,豆包團隊發布公告,稱為了讓技術發展與行業接受度良性適配,將對AI操作手機的能力進行規范化調整。其中包括限制金融類應用和部分游戲的使用。
圖/豆包手機助手官微
此前12月1日,字節跳動豆包團隊發布豆包手機助手技術預覽版,是在豆包大模型基礎上和手機廠商在操作系統層面合作的AI助手軟件,并官宣率先落地中興旗下的努比亞M153,這款真正接近AI手機的產品,3499元的價格一度在二級市場炒至萬元高價。
隨后不少業內人士抨擊,豆包擁有的跨應用操作能力,是因為獲取了一項操作系統高危權限INJECT_EVENTS,直接引來抖音副總裁李亮的公開發聲:只要是用戶許可就不存在侵犯隱私的行為。豆包手機助手是經過用戶授權,才能完成操作手機的任務。
圖/@抖音集團李亮個人微博
短短一周,這一系列喧囂不僅將系統級AI推上風口,也讓外界看清了AI Agent在終端上的潛力與局限讓每個用戶真正擁有自己的賈維斯,遠比想象中要難。
一個無限接近AI Agent的產品
豆包手機助手的直觀功能并不復雜。
除了基礎的多模態能力和本地工具調用,它最核心的能力其實是跨應用自動執行和全局記憶功能。
在豆包最早發布的演示視頻中,在不同電商平臺比價下單、調取用戶放進微信、小紅書、大眾點評等App收藏夾的地點,并在地圖上進行標注,都是典型案例。
類似早期單個AI搜索軟件中的上下文感知能力,豆包手機助手的全局記憶相當于把這種記憶能力擴展到用戶平時對手機的所有操作上:你保存的某個日程、關注的某家餐廳、記錄的某人生日,全局記憶讓助手能夠把分散在不同應用或時間點的任務整合在一起,實現跨應用的連續操作,比如通過喚醒記憶幫你訂餐廳、訂機票等。
如果說早期的豆包像個聰明的語音助手,如今卻更接近直接把你的秘書塞進了系統里。它能理解屏幕內容、判斷界面狀態、自己尋找任務路徑,而非依賴某個插件或API。以往的語音助手只是替你發出指令,豆包開始替你實際動手。
某種程度來說,它其實是一個無限接近AI Agent的產品。
但從技術層面來看,豆包手機助手的核心功能邏輯不外乎兩部分:讀取屏幕+模擬用戶操作。
即它可以通過操作系統提供的無障礙接口獲取當前屏幕的界面結構和元素信息,換句話說,它能看到屏幕上每個可交互元素的位置、屬性和文本信息。
圖/微信安全中心官微
這也能解釋為何此次微信動作跟進得如此迅速的原因,這個窗口一旦打開,便意味著潛在的濫用可能。對于微信等核心應用,它們必須重新評估每一個外部調用行為的安全性與可信度,這也是為何會選擇直接阻斷的原因。
這種擔心并非微信獨有。對整個App生態而言,當外部助手掌握了系統級操作能力,就意味著任何應用的控制權都有可能被分流或代替。
這也是豆包手機助手面臨的行業級矛盾:入口之爭必然帶來動作邊界之爭。
用戶想象中的便利,對應用開發者而言可能是潛在的安全漏洞或者運營風險。無論是社交、支付還是電商應用,每一次操作都可能牽扯到賬戶安全、交易完整性、用戶體驗等多重考量。
從市場角度看,這類限制也揭示了決策權的歸屬無論系統權限多么高,最終能否執行任務,取決于App是否允許。
即使系統層的AI助手具備多高的系統權限,最終能否真正執行任務,仍要看各個App是否在業務鏈路、相應接口與風控體系上給予可被自動化的空間。如果沒有應用方的配合,AI助手的全局執行就會遇到天花板。
更廣義地說,這種沖突反映了整個行業在系統級AI入口上的博弈。大廠都希望保留對用戶操作鏈路的掌控權,因為這是流量、數據、風控與用戶體驗的根基。
一個簡單的例子,如果豆包這類系統層智能體能夠代替用戶在多個應用之間直接執行操作,意味著用戶不再需要進入各個平臺完成這些動作。原本打開ABC平臺→搜索關鍵詞→瀏覽、比價商品→完成下單的傳統路徑,變成只需要說一句幫我買一包50元以內、銷量高、明天能送達的貓糧,AI助手就會自動去各電商平臺比價、選品并完成下單。
用戶不再進入平臺首頁,平臺就會失去搜索入口的流量;AI抽取內容后,平臺本身的推薦流不再是用戶入口,內容價值鏈被上游截斷;而用戶瀏覽時間下降,廣告曝光就會減少;平臺的貨架邏輯和推薦流量分發也會失效。
當AI助手嘗試跨越應用邊界,它實際上挑戰的是現有App生態的權力分布。豆包手機助手的嘗試雖然顯示了技術可行性,但真正能否長期運行,取決于能否在在系統權限與App生態之間找到商業操作上的平衡點。
軟硬一體才是真正入口
AI發展了近3年,從算力到多模態能力,再到AI硬件落地,產業格局逐漸回到可持續性商業模式的考量上。
正如豆包明知跨應用自動執行存在隱私合規與平臺關系的多重風險,卻仍要執意往前推進,原因非常直接:跑馬圈地之后,入口之爭進入了新的階段,AI 廠商和手機廠商都意識到,未來真正能沉淀商業價值的,不是一個個獨立的 AI 服務,而是真正與用戶場景相關的超級入口。
AI Agent的發展初期,豆包、元寶、Kimi、通義千問等產品都曾試圖通過嵌入應用內功能占據用戶場景。
豆包初期曾嵌入到抖音、今日頭條等應用內,提供智能推薦、內容生成等功能;今年初騰訊甚至在微信里幾乎能放廣告的所有地方,都給元寶上了廣告位
而AI搜索軟件和手機廠商上一次深度合作還是Deepseek爆火后,華為、榮耀、小米等主流國產手機廠商都先后宣布在其原有的語音助手中接入DeepSeek。
事實上,系統級AI也并非豆包首發。
早在今年6月華為開發者大會上,鴻蒙系統6展示的AI智能體驗,就已出現系統級AI的雛形,但當時華為強調的仍是調度多個智能體協同完成任務。
蘋果方面,Siri正在向系統層執行能力升級,未來的Apple Intelligence同樣瞄準跨App協作和操作路徑重構。小米、華為、OPPO等廠商也在持續改進語音助手的全局操作能力,逐步向中心化、一體化方向靠攏。
硬件端同樣在布局未來入口,從早前的網紅AI穿戴設備Humane的AI Pin,到阿里在11月最新發布的夸克AI眼鏡,都曾被視作可能的替代入口。但至少目前尚未獲得用戶心智占領,手機仍是最穩定、使用頻次最高的終端。因此,大部分廠商仍將手機作為核心入口下注。
這也是為什么各大廠在AI生態布局中,軟硬件同步推進:軟件確保系統級操作能力落地,硬件探索未來交互形態,二者結合才可能形成對用戶行為路徑的長期控制。
AI的洪流滾滾向前,當技術變得愈加通用,企業要么上車,要么被拋棄。





京公網安備 11011402013531號