00后大模型實習生“扒光”豆包手機！千字實測揭秘

IP屬地中國·北京 編輯：胡穎新智元 時間：2025-12-10 14:09:30

新智元報道
編輯：桃子好困
爆火的「豆包手機」，到底藏了什么狠活？一篇熱帖，LLM工程師通過黑盒測試和論文推演，扒出了它的技術機密。
一部AI手機，火爆全網。
張嘴一句話，它在短短幾秒內，就完成了跨APP自動比價下單、回微信、預約機票、規劃旅行路線......
海外創業大佬Taylor Ogan驚呼，「這簡直是另一個DeepSeek時刻！這是世界上第一款真正的智能手機」。
不用多說，它就是最近一機難求的——「豆包手機」。
B站博主「六分超超」體驗后大感驚艷，贊嘆「是今年令自己印象最深的產品」。
更猛的是，即便是在鎖屏的情況下，「豆包手機」也能在后臺絲滑操作。
在「電丸科技AK」的測試中，「豆包手機」不僅可以輕松通過B站「大考」，而且速度奇快——
3秒答完1道題，5分鐘100道題！
那么問題來了，到底是什么黑科技讓「豆包手機」，一夜之間火遍了全世界？
正巧，我們在小紅書上吃瓜的時候，意外發現了一篇十分有趣的帖子——《我沒有逆向「豆包手機」，但我想說點什么》。
小紅書原帖地址：http://xhslink.com/o/93GCQttMFgO
更新版博客地址：
https://www.notion.so/GUI-Agent-2c17a860b5e680e3b6e4efece19d1457
一篇爆帖，工程解密「豆包手機」
這篇帖子的博主「宵逝」，目前是大模型方向的實習工程師，純從學術角度聊了聊感受。
他上手測試后，通過黑盒測試和arXiv邏輯推演，從工程學角度給出了比較科學的解釋。
一上來，他便戳中了「豆包手機」的核心：
這不僅僅是一個App，字節是在Android framework層做了一套OS級的影子系統。
接下來，博主從以下七個方向，給出了自己的洞察。
1. 兩套模式：System 1（直覺）vs. System 2（推理）
字節將Agent拆分成兩套棧（Stack）：一個是標準模式，另一個是Pro模式。
這不僅僅是模型大小的區別，而是兩套完全不同的Pipeline，類似于人類認知中的System 1和System 2。
這里，作者在測試中，設下一個「陷阱」——
選擇一張京東首頁全屏截圖，給豆包下達指令「點擊搜索按鈕」。
標準模式（快）：Naive Simulation
它主要依賴淺層視覺語言模型（VLM），響應極快，體感延遲小于500ms。
他推測，可能使用了Doubao-1.5-UI-TARS蒸餾版，prompt簡短可通過壓縮IO token實現更快效果。
不過，缺陷在于它的典型「直覺」反應，會傻傻地點擊圖片中的按鈕。
Pro模式（慢且魯棒）：深度推理+工具調用
在同樣的測試中，Pro模式明顯會有一個「暫停+思考」的過程——拒絕點擊，建議切換瀏覽器。
他推測，這可能走的是Doubao-1.5-UI-TARS完整版路線，并且做了更多后訓練對齊。
同時，也說明Planner進行了介入，且具備了自我反思能力。
并且，只有在Pro模式下，才能觀察到復雜的多跳檢索和System API的直接調用。
補充信息：據我們最新了解，豆包手機助手使用了UI-TARS 2.0閉源版本，性能大幅優于開源版，且針對手機使用場景進行了專門優化。
2. 混合感知路由（Hybrid Perception Router）
環境噪聲的干擾，是當前Agent落地的核心挑戰。
XML+Vision動態路由，不管是UI-TARS的標準版還是Pro，是豆包給出的最直接的解法。
在高德/百度地圖首頁，呈現了多種復雜圖標/道路狀態情況下，博主要求豆包「點擊深紅色最堵路段旁邊的施工圖標」。
這是一個在OpenGL渲染界面中，執行復雜指令的測試場景。
令人欣喜的是，AI優雅地完成了這個任務。
在這種場景下，安卓的「無障礙樹」往往是空的，或只有一個SurfaceView容器，且不包含任何子節點信息。
這就坐實了，背后視覺路線的存在，因為VLM具備像素級的「開放詞匯定位」的能力。
它真正理解了「深紅色、旁邊、施工圖標」，包含了顏色語義、空間關系、物體檢測復雜信息。
由此，他推測這可能構成「路由動態」選擇：標準UI走XML，非標UI走視覺（截屏但費電）。
3. OS級的虛擬化：并行運行時（Parallel Runtime）
這一點，想必許多上手實操過的網友，都已有深刻的體會——
一邊讓豆包比價購物，另一邊刷視頻、接電話照樣不誤。
Agent可以在后臺跑長任務，即便手機切換到別的應用也不會中斷。
博主推測，Agent極有可能跑在「影子屏幕」上，實現了「輸入隔離」：物理屏打電話，邏輯屏在跑Agent。
這種「雙并行宇宙」結構，徹底解決了Agent搶前臺，手機卡死的痛點。
4. 啟發式工程：提示「等等」
Agent會在每一操作結束后，無論當前頁面渲染多快，都會在系統prompt中強制引入1000ms~5000ms的固定延遲。
這種設計，類似于Cursor CLI中「等待輪詢」。
從工程學角度看，這種做法是為了對抗APP中常見的異步加載/骨架屏，用時間換取「成功率」，妥協但有效。
5. 隱私設計的「物理隔離」：任務層級（Activity Hierarchy）
回到多數人最關切的隱私問題，擔心豆包Agent會24小時錄屏監控，但博主測試后發現——
視覺管道是過濾的。
若是豆包真的在用VLM分析屏幕，恐怕手機早就燙到不能用了。
他開啟了B站畫中畫模式，然后讓Agent操作主屏，中途再截屏，結果發現，AI截到的畫面只有主應用的界面，完全沒有懸浮窗。
這證明了，它不讀物理屏幕輸出流，而是基于「任務層級」針對性抓取。也就是說，從物理層面上，豆包隔離了視頻通話、金融APP安全鍵盤，是一種精心設計的安全功能。
博主認為，豆包手機助手的代碼邏輯是安全、可靠的設計，其包含了隔離機制、熔斷策略和本地化處理。
代碼可以透明，但編寫與掌管代碼的人呢？這種擔憂，可以理解。
但這個問題本真難以徹底解決。在博主看來，如果Agent可以代替自己解決80%日常瑣事，是可以交出經脫敏、不涉及核心隱私的數據。
6. 記憶與工具使用：關于MCP協議的猜想
在Pro模式下，數據的調用精準。
工具調用架構
測試中，博主給出一個模糊指令「驗證碼有什么數學特征」，Agent沒有暴力做OCR全屏，而是Client向Server發起請求，整個系統授權部分，可能形成了一個RAG-MCP。
列表記憶（Sliding Window）
在滾動長列表（List View）時，Agent行為非常像E2E測試框架Playwright：滾屏→DOM Diff→提取增量信息→拼接。
這種方式，解決了跨屏上下文的問題。
7. 韌性（Resilience）
最后一個測試中，博主讓Agent讀取Outlook最新郵件，結果失敗。
此時，Agent沒有報錯退出，而是自動降級讀取第二封，并嘗試提取第一封在列表頁的預覽信息，然后做出合并匯報。
這說明了，它的規劃器關注的是「任務目標」，而不是規定的操作序列。這種動態規劃的能力，才是推理應做的事兒。
博主體驗后道出了真實的感受——它讓我真切地感受到「推理」走出了論文。
當看到Agent在Outlook閃退后，自行思考片刻，轉而讀取郵件列表預覽時，那種感覺很奇妙。
它不再是一個機械執行click(x, y) 的簡單腳本，而是開始展現出某種韌性。
他表示，對于做研究的人來說，這臺手機更像一份來自工業界的SOTA級Demo。它并不完美，但真正跑起來了。
總而言之，「豆包手機」在速度上做了很多妥協，但從架構角度看，可能是目前移動手機最靠譜的解法。
從博主的這篇分析中，讓我們對「豆包手機」背后工程實現獲得了關鍵一瞥。
當我們再扒開字節開源庫，發現「豆包手機」助手GUI操作能力，已經通過UI-TARS模型的開源版本開放給業界。
開源地址：https://github.com/bytedance/UI-TARS
簡單來說，UI-TARS是一個將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在一個模型中。
它能實現搜集信息、處理文檔、訂票、比價等各種復雜操作，甚至能在游戲中進行思考和行動。
值得一提的是，UI-TARS的更新速度超快，光今年一年就迭代了三次：
2025年1月，第一代UI-TARS；
2025年4月，UI-TARS-1.5；
2025年9月，UI-TARS-2。
GUI Agent覺醒，「努比豆」重寫未來
豆包AI助手，是當前GUI Agent浪潮的典型代表。
GUI Agent代表著AI與人類交互的「新前沿」，可以讓模型看屏如人，操作如手。
在不需要切換API的情況下，可自動化一切GUI軟件。
在早期，API和GUI是分化的兩派。比如OpenAI Tools提供的API速度快，但不適應動態的UI。
傳統的GUI雖可視化強，但對于大模型來說，描述UI信息噪聲大，理解成本高，還不穩定。
因此，早期階段的LLM要么走API路線，要么走GUI路線，難以統一。
而端側小模型的出現，讓GUI可以被結構化理解，再與API融合，就出現了「統一的智能交互層」。
幾個月前，蘋果團隊曾發布了Ferret-UI Lite，一款GUI Agent小模型，實現了精準的控件定位能力。
論文地址：https://arxiv.org/pdf/2509.26539
真正讓GUI Agent走向大眾的，還是得益于近兩年，多模態原生大模型躍遷式的迭代升級。
諸如Gemini 3、GPT-5.1等頂尖AI模型，都在朝著多模態方向發展。
這意味著，LLM不僅可以看文字，還能看懂圖片、視頻、UI元素。同時，LLM具備了更長上下文，可以記住跨越多步的任務。
大模型Agent開始用多模態感知界面，再配上RL，可以在GUI、網頁等真實環境中，操作游刃有余。
在題為「Large Language Model-Brained GUI Agents: A Survey」的論文中，團隊做了一個直觀的GUI Agent流程：
Agent在接收指令后，會在多個應用程序中無縫協作。
它會從文檔中提取信息，在Photos中觀察內容，在瀏覽器中總結網頁，在Adobe Acrobat讀取PDF，并在PPT中創建文件，最后通過Teams發送。
論文地址：https://arxiv.org/pdf/2411.18279
2023年之前，以OpenAI WebGPT為代表。從2023年之后，類似的GUI Agent全面爆發。
這一年最具代表性，當屬OpenAI Operator和字節UI-TARS。
真正高階的基操，是把Agent深入嵌入OS系統級的能力。
「豆包手機」便可以照見行業脈絡，讓Agent從可操作界面，邁向了深度的系統集成。
這種OS級的植入，必須處理巨大的隱私、安全、權限問題，這是系統級GUI Agent向前邁進不可避免的陣痛。
字節雖未明確具體工程細節，從博主「疊甲」分析中，可以得知他們采用了「任務級過濾」（Activity-level Filtering）機制。
也就是說，系統會把每一次Agent行為抽象成一個「任務」，進行逐一過濾。
因此，Agent截圖才不會截到「畫中畫」浮窗。本質上，這就像是OS級的權限中間層。
Hugging Face亞太生態負責人Tiezhen Wang點評，它證明了手機使用可以成為OS級原生能力，并將定義下一代AI手機
「豆包手機」的出現，證明了OS級可行性，真正定義了AI原生手機的形態。
昔日針鋒相對的宿敵，老羅和王自如在「豆包手機」上，立場罕見地一致。
不得不說，在GUI Agent時代，「豆包手機」才是劃時代的標志。
參考資料：：
http://xhslink.com/o/93GCQttMFgO
https://www.notion.so/GUI-Agent-2c17a860b5e680e3b6e4efece19d1457

標簽：手機豆包模型博主能力視覺任務信息問題定位工程 徹底解決 動態 瀏覽器 模式路線地址開源論文助手系統精準比價 工程師 時間典型代表視頻網頁場景情況邏輯

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

羅永浩錘子軟件在上海成立分公司

豆包視頻生成大升級，網友們的腦洞終于自帶音效了

字節跳動被傳全年利潤500億美元創新高知情人士回應：數據不實偏差較大

大疆的“印鈔機”，被手機廠商盯上了

特斯拉專利給攝像頭裝“電動墨鏡”提升自動駕駛可靠性

獨家丨山姆系高管入職京東數月「閃退」，其負責的自有品牌事業部接連調整

全站最新

羅永浩錘子軟件在上海成立分公司

豆包視頻生成大升級，網友們的腦洞終于自帶音效了

字節跳動被傳全年利潤500億美元創新高知情人士回應：數據不實偏差較大

大疆的“印鈔機”，被手機廠商盯上了

熱門推薦

羅永浩錘子軟件在上海成立分公司

豆包視頻生成大升級，網友們的腦洞終于自帶音效了

字節跳動被傳全年利潤500億美元創新高知情人士回應：數據不實偏差較大

大疆的“印鈔機”，被手機廠商盯上了

特斯拉專利給攝像頭裝“電動墨鏡”提升自動駕駛可靠性

獨家丨山姆系高管入職京東數月「閃退」，其負責的自有品牌事業部接連調整

笑瘋了！AI開小賣部被人類騙到破產，PS5竟然0元送

「一腦多形」圓桌：世界模型、空間智能在具身智能出現了哪些具體進展？丨GAIR 2025

奧動新能源港股IPO：“報表優化”后的盈利迷霧

Karpathy2025年AI終極復盤：我們還沒發揮出LLM潛力的10%

百人會張永偉：2026年車市2%微增長，行業出清將加速

為船舶配備“AI 護航員” 我國首套全國產化VTS系統落地大連

說句話就能改文檔！微軟Copilot新增語音實時編輯功能

保時捷718純電版被拍到開啟第四輪冬測，研發周期破紀錄

維基百科聯合創始人：馬斯克的Grokipedia受到批評，我并不感到驚訝