
豆包碰了誰的奶酪?
文/郭佳哿
編輯/張曉
發布僅一周時間,豆包手機助手就已經引來輿論層面的幾輪沖擊。
12月5日,豆包團隊發布公告,稱為了讓技術發展與行業接受度良性適配,將對AI操作手機的能力進行“規范化調整”。其中包括限制金融類應用和部分游戲的使用。

圖/豆包手機助手官微
此前12月1日,字節跳動豆包團隊發布豆包手機助手技術預覽版,是在豆包大模型基礎上和手機廠商在操作系統層面合作的AI助手軟件,并官宣率先落地中興旗下的努比亞M153,這款真正接近“AI手機”的產品,3499元的價格一度在二級市場炒至萬元高價。
隨后不少業內人士抨擊,豆包擁有的跨應用操作能力,是因為獲取了一項操作系統高危權限INJECT_EVENTS,直接引來抖音副總裁李亮的公開發聲:“只要是用戶許可就不存在侵犯隱私的行為。豆包手機助手是經過用戶授權,才能完成操作手機的任務”。

圖/@抖音集團李亮個人微博
短短一周,這一系列喧囂不僅將系統級AI推上風口,也讓外界看清了AI Agent在終端上的潛力與局限——讓每個用戶真正擁有自己的“賈維斯”,遠比想象中要難。
01
一個無限接近AI Agent的產品
豆包手機助手的直觀功能并不復雜。
除了基礎的多模態能力和本地工具調用,它最核心的能力其實是跨應用自動執行和全局記憶功能。
在豆包最早發布的演示視頻中,在不同電商平臺比價下單、調取用戶放進微信、小紅書、大眾點評等App收藏夾的地點,并在地圖上進行標注,都是典型案例。
類似早期單個AI搜索軟件中的上下文感知能力,豆包手機助手的全局記憶相當于把這種記憶能力擴展到用戶平時對手機的所有操作上:你保存的某個日程、關注的某家餐廳、記錄的某人生日,全局記憶讓助手能夠把分散在不同應用或時間點的任務整合在一起,實現跨應用的連續操作,比如通過喚醒記憶幫你訂餐廳、訂機票等。
如果說早期的豆包像個聰明的語音助手,如今卻更接近直接把你的秘書塞進了系統里。它能理解屏幕內容、判斷界面狀態、自己尋找任務路徑,而非依賴某個插件或API。以往的語音助手只是替你發出指令,豆包開始替你實際“動手”。
某種程度來說,它其實是一個無限接近AI Agent的產品。
但從技術層面來看,豆包手機助手的核心功能邏輯不外乎兩部分:讀取屏幕+模擬用戶操作。
即它可以通過操作系統提供的無障礙接口獲取當前屏幕的界面結構和元素信息,換句話說,它能“看到”屏幕上每個可交互元素的位置、屬性和文本信息。

圖/豆包手機助手官網
事實上,這種功能并不新鮮,大多數安卓手機早期的無障礙功能就已經可以讀屏并控制應用了——一種最初設計給視障用戶的系統權限。區別在于豆包手機助手本質是把AI大模型做成系統級的手機助手,預裝在手機里,以最高權限直接插進系統,讓操作不再只是機械執行,而是可以根據上下文和任務目標自主判斷和規劃,從而完成更復雜、跨應用的自動化任務。
這種產品模式看起來確實性感,如果是過去的手機是“你點”,語音助手是“你說,我幫你打開”;那現在就是“你說,我整個事情全部做好”。
說到底,這從用戶體驗上是質變,但從技術底座上,只是量變的疊加,并沒有顛覆性的底層技術突破。
那問題來了:這套能力為什么現在才出現?
一方面,大模型的多模態理解能力在這兩年提升明顯,另一方面,推理成本下降,讓模型常駐后臺變得現實,不再像過去那樣昂貴、卡頓甚至不穩定。
這個節點落在2024年底,模型能力、算力成本與用戶需求共同逼近閾值,用戶場景開始成為AI大模型們的共同目標。豆包踩中了這樣一個窗口,它與其他AI產品的關鍵區別并不在算力水平,而在于其把錨點瞄準更與用戶息息相關的移動終端——手機。
豆包手機助手的出現,顯然不是為了證明技術實力,而是為了占據這個潛在的超級入口。在應用增長見頂、內容平臺競爭白熱化的當下,“入口”比“功能”重要得多。一旦模型能穩當地承擔跨應用執行任務,它就擁有了重新分配移動生態流量的可能性。
同時隨著App越做越復雜、生態越來越臃腫,用戶被擠壓的耐心反而催生了對“簡單直接快速”的渴望,整個手機行業給AI讓出了一個可被替換的鏈路。
這也解釋了為什么豆包手機助手在短時間內激起如此多討論:它觸碰的不只是產品,而是互聯網大廠們多年構建起的底層生態。而下一步能否走下去,要看它如何穿越更復雜的生態摩擦。
02
核心應用們的集體圍剿
輿論的導火索始于微信對豆包手機助手的突然“隔離”。
僅正式發布一天,就陸續有用戶發現,在使用這臺搭載了豆包手機助手的手機操作微信時,直接觸發了微信“登錄環境異常”提示,導致微信被強制下線且無法正常登錄。
緊接著阿里系也緊跟其后,有用戶反饋在登錄淘寶、閑魚、大麥等App時,也遭到了強彈窗提醒,被強制推出并顯示登陸環境異常,要求更換設備重新登陸。與此同時,該手機上的農業銀行、建設銀行等App也被直接拒絕登陸。
這些核心應用的罷工,讓這臺在二手市場溢價已經高達近4倍的努比亞工程機,短短幾天內直接變成一塊“磚頭”。
雖然對此微信方的公開回復是,“沒有什么特別的動作,可能是觸發了本來就有的安全風控措施”,但如果把視角拉回到豆包手機助手本身,它所依賴的系統級權限正是這些風控敏感的關鍵所在。
要實現“像人一樣操作其他應用”,AI助手必須獲得較高權限或廠商級接入,尤其是連續跨應用調用會觸及大量第三方數據,包括聊天記錄、聯系人、支付信息等等,這些個人信息都需要非常明確的用戶授權、最小權限原則、以及本地化數據保護。
而AI Agent在真實環境中面對App版本迭代、網絡波動等復雜情況,一旦出現執行失敗或誤操作,尤其涉及支付等重要設置時,用戶容錯成本極高。
這不僅關乎用戶數據安全,也關系到產品的穩定性和風控體系完整性。對微信而言,每一次消息發送、每一個操作流程,都嵌入了復雜的反作弊、反濫用和數據監控邏輯,一旦被外部工具繞開,就可能打亂系統設計,增加異常事件和責任歸屬風險。
值得注意的是,今年4月,微信剛發布公告提醒用戶切勿使用第三方工具管理微信聊天記錄。此后,包括Siri、小愛同學、華為小藝等手機語音助手均無法再通過語音直接調用微信功能。

圖/微信安全中心官微
這也能解釋為何此次微信動作跟進得如此迅速的原因,這個窗口一旦打開,便意味著潛在的濫用可能。對于微信等核心應用,它們必須重新評估每一個外部調用行為的安全性與可信度,這也是為何會選擇直接阻斷的原因。
這種擔心并非微信獨有。對整個App生態而言,當外部助手掌握了系統級操作能力,就意味著任何應用的控制權都有可能被分流或代替。
這也是豆包手機助手面臨的行業級矛盾:入口之爭必然帶來動作邊界之爭。
用戶想象中的“便利”,對應用開發者而言可能是潛在的安全漏洞或者運營風險。無論是社交、支付還是電商應用,每一次操作都可能牽扯到賬戶安全、交易完整性、用戶體驗等多重考量。
從市場角度看,這類限制也揭示了決策權的歸屬——無論系統權限多么高,最終能否執行任務,取決于App是否允許。
即使系統層的AI助手具備多高的系統權限,最終能否真正執行任務,仍要看各個App是否在業務鏈路、相應接口與風控體系上給予“可被自動化”的空間。如果沒有應用方的配合,AI助手的“全局執行”就會遇到天花板。
更廣義地說,這種沖突反映了整個行業在系統級AI入口上的博弈。大廠都希望保留對用戶操作鏈路的掌控權,因為這是流量、數據、風控與用戶體驗的根基。
一個簡單的例子,如果豆包這類系統層智能體能夠“代替用戶”在多個應用之間直接執行操作,意味著用戶不再需要進入各個平臺完成這些動作。原本打開ABC平臺→搜索關鍵詞→瀏覽、比價商品→完成下單的傳統路徑,變成只需要說一句“幫我買一包50元以內、銷量高、明天能送達的貓糧”,AI助手就會自動去各電商平臺比價、選品并完成下單。
用戶不再進入平臺首頁,平臺就會失去搜索入口的流量;AI抽取內容后,平臺本身的“推薦流”不再是用戶入口,內容價值鏈被上游截斷;而用戶瀏覽時間下降,廣告曝光就會減少;平臺的“貨架邏輯”和推薦流量分發也會失效。
當AI助手嘗試跨越應用邊界,它實際上挑戰的是現有App生態的權力分布。豆包手機助手的嘗試雖然顯示了技術可行性,但真正能否長期運行,取決于能否在在系統權限與App生態之間找到商業操作上的平衡點。
03
軟硬一體才是真正入口
AI發展了近3年,從算力到多模態能力,再到AI硬件落地,產業格局逐漸回到可持續性商業模式的考量上。
正如豆包明知跨應用自動執行存在隱私合規與平臺關系的多重風險,卻仍要執意往前推進,原因非常直接:跑馬圈地之后,入口之爭進入了新的階段,AI 廠商和手機廠商都意識到,未來真正能沉淀商業價值的,不是一個個獨立的 AI 服務,而是真正與用戶場景相關的超級入口。
AI Agent的發展初期,豆包、元寶、Kimi、通義千問等產品都曾試圖通過嵌入應用內功能占據用戶場景。
豆包初期曾嵌入到抖音、今日頭條等應用內,提供智能推薦、內容生成等功能;今年初騰訊甚至在微信里幾乎能放廣告的所有地方,都給元寶上了廣告位……
而AI搜索軟件和手機廠商上一次深度合作還是Deepseek爆火后,華為、榮耀、小米等主流國產手機廠商都先后宣布在其原有的語音助手中接入DeepSeek。
事實上,系統級AI也并非豆包“首發”。
早在今年6月華為開發者大會上,鴻蒙系統6展示的AI智能體驗,就已出現系統級AI的雛形,但當時華為強調的仍是調度多個智能體協同完成任務。
蘋果方面,Siri正在向系統層執行能力升級,未來的Apple Intelligence同樣瞄準跨App協作和操作路徑重構。小米、華為、OPPO等廠商也在持續改進語音助手的全局操作能力,逐步向中心化、一體化方向靠攏。
硬件端同樣在布局未來入口,從早前的網紅AI穿戴設備Humane的AI Pin,到阿里在11月最新發布的夸克AI眼鏡,都曾被視作可能的替代入口。但至少目前尚未獲得用戶心智占領,手機仍是最穩定、使用頻次最高的終端。因此,大部分廠商仍將手機作為核心入口下注。
這也是為什么各大廠在AI生態布局中,軟硬件同步推進:軟件確保系統級操作能力落地,硬件探索未來交互形態,二者結合才可能形成對用戶行為路徑的長期控制。
AI的洪流滾滾向前,當技術變得愈加通用,企業要么上車,要么被拋棄。
頭圖/豆包AI生成





京公網安備 11011402013531號