![]()
圖|OS Agents 領域在近些年的發展進程,包括基礎模型、Agent 框架、基準測試和產品等。
在過去的一年里,人工智能(AI)領域出現了一個格外引人關注的新方向——OS Agents。它指的是能夠直接在電腦、手機、瀏覽器,甚至各種設備上幫你“動手”的智能體(agent)。
例如,它可以替你點奶茶、填表格、訂機票,真正把指令變成行動。相比偏聊天的 Chatbot,OS Agents 讓“能干活的助手”變得越來越真實。
OS Agents 代表了 AI 行業發展的下一個趨勢:AI 不再只停留在回答層面,而是逐步走向“全能操作員”。未來,也許每個人都能擁有一個屬于自己的 AI 操作系統,幫你跨平臺完成各種任務,讓生活和工作效率都翻倍。
此前,浙江大學團隊及其合作者發表了一篇關于 OS Agents 的綜述,近期又在預印本網站 arXiv 上發布。這篇綜述文章頗具價值。對于想緊跟 AI 發展趨勢的你來說,是個不錯的“入門讀物”。分享給大家。
該綜述詳細介紹了基于多模態大語言模型(MLLM)的 Agent 如何在不同平臺和任務環境中發揮其潛力,揭示了當前面臨的技術瓶頸和未來發展方向。
![]()
論文鏈接:https://arxiv.org/abs/2508.04482
我們離JARVIS還有多遠?
構建一個類似于漫威電影《鋼鐵俠》中 J.A.R.V.I.S. 的超級智能 AI 助手——能夠協助 Tony Stark 操控各種系統、自動完成任務——是我們無數人的夢想。
在 AI 行業,類似這樣的實體被稱為 OS Agents,它們通過操作系統提供的環境與界面(如圖形用戶界面 GUI),使用計算設備(如計算機和移動終端)完成任務。OS Agents 能夠自主執行操作,或可提升全球數十億用戶的生活質量。
試想一個由 Agents 無縫完成諸如網購、行程安排等日常事務的世界,這將極大提高人們的效率與生產力。
在過去,Siri、Google Assistant 等虛擬助手已初步展示了這類潛力,但由于模型能力受限,缺乏上下文理解能力,這些產品并不具備完整功能,且尚未被廣泛應用。
幸運的是,近年來 MLLM 的快速發展,為 OS Agents 的實現提供了新的可能性。這些模型具備強大的理解與生成能力,使 OS Agents 更加擅長理解復雜任務,并能夠操控計算設備予以執行。
OS Agents是什么?
OS Agents 能夠利用操作系統提供的環境、輸入和輸出接口,通常通過計算設備來響應用戶設定的目標。它們的核心設計目標是自動化執行操作系統內部的任務,并依靠 MLLM 的理解與生成能力,從而提升用戶體驗感和操作效率。
為實現這一目標,OS Agents 構建在三個關鍵組成部分之上:環境、觀察空間和動作空間,這三者共同支持 Agents 與操作系統之間的高效交互。
環境,是指 OS Agents 運行的平臺或系統,可以是桌面操作系統、移動端或網頁端。這些環境涵蓋了各種任務,要求 Agents 在多個界面之間進行規劃和推理。
觀察空間,是指 OS Agents 能夠訪問的系統狀態和用戶活動信息, Agents 通過這些觀察結果來理解環境、做出明智決策,并決定如何執行合適的行動以達成用戶設定的目標。
動作空間,則定義了 OS Agents 通過操作系統輸入接口操控環境的所有交互方式。
此外,OS Agents 還需具備三項核心能力:理解、規劃和 grounding。這些能力使得它們能夠理解任務需求、制定行動策略,并在操作環境中有效執行具體操作。
理解,是 OS Agents 的一項關鍵能力,它要求 Agents 理解復雜的操作系統環境。這種能力不僅對信息檢索任務至關重要,也是執行其他各類任務的前提。
規劃,是 OS Agents 的基礎能力,它使 Agents 能夠將復雜的任務分解為可管理的子任務,并制定行動序列以實現具體目標。
grounding,是一種將文本指令或計劃轉化為操作環境中可執行的具體動作的能力。
![]()
圖|OS Agents 的基礎原理。
構建“能用”的OS Agents
為 OS Agents 構建基礎模型主要涉及兩個關鍵方面:模型架構與訓練策略。模型架構決定了模型在操作系統環境中如何處理輸入與輸出,而訓練策略則賦予模型完成復雜任務的能力。
![]()
圖|在基礎模型構建中應用的訓練策略
這些訓練策略主要包括預訓練、有監督微調和強化學習。近期基礎模型中用于 OS Agents 的架構和訓練策略如下:
![]()
圖|OS Agents 基礎模型。Arch:架構,Exist:現有,Mod:修改,Concat:拼接,PT:預訓練,SFT:監督微調,RL:強化學習
OS Agents 框架通常由四個核心組件構成:感知、規劃、記憶和行動。其中,感知模塊負責收集并分析環境信息;規劃模塊負責任務分解和行動序列的生成;記憶模塊用于信息存儲和經驗積累;而行動模塊則負責執行特定的操作指令。
所有這些組件共同協作,使得 OS Agents 能夠具備理解、規劃、記憶并與操作系統進行有效交互的完整能力。
![]()
OS Agents 框架在這四個核心模塊的基礎上,具有一定的技術特征和其具體的實現方式。
![]()
圖|用于 OS Agents 的 Agents 框架,TD:文本描述,GS:GUI 屏幕截圖,VG:視覺定位,SG:語義定位,DG:雙重定位,GL:全局,IT:迭代,AE:自動化探索,EA:經驗增強,MA:管理,IO:輸入操作,NO:導航操作,EO:擴展操作。
評估在 OS Agents 的開發過程中起著至關重要的作用,因為它有助于衡量 Agents 在不同場景中的表現和有效性。當前文獻采用了多種評估技術,這些技術根據具體環境和應用的不同而有所變化。
OS Agents 評估的關鍵在于評估原則和評估方法。評估需要多方面和多技術的結合,以全面了解 Agents 的能力與局限性。評估過程主要分為客觀評估和主觀評估。
OS Agent 的評估過程主要考察其理解、規劃和 grounding 方面的能力。
為了全面評估 OS Agents 的性能和能力,研究人員開發了多種基準測試。這些基準測試基于不同的平臺和配置,構建了多樣的評估環境,并涵蓋了各種任務類型。
![]()
圖|OS Agents 基準測試
挑戰與未來
盡管 OS Agents 已取得了令人矚目的進展,但該領域仍然面臨諸多挑戰,需要進一步的研究與改進。
安全是 OS Agents 落地過程中必須慎重考慮的關鍵問題。學術界已經開始研究針對 OS Agents 的對抗攻擊,一些研究者也著手構建 LLM Agents 的安全框架與策略。未來的研究應集中于為 OS Agents 開發全面且可擴展的安全解決方案。除了安全,隱私也是不容忽視的因素。
正如電影中鋼鐵俠的 Jarvis 根據 Tony Stark 的偏好提供量身定制服務一樣,開發個性化的 OS Agents 同樣是 AI 研究的一個長期目標。目前,一些大型模型(如 OpenAI 的新功能 memory)已開始朝這個方向邁進,賦予模型“記住”的能力。然而,總體而言,多數(M)LLM 在提供個性化體驗和在用戶交互中的自我進化能力上仍顯不足。
此外,將記憶的模態從文本擴展到其他形式,如圖像、語音,以及如何有效地管理和檢索這些記憶也是目前面臨的重大挑戰。
研究人員相信,未來如果能夠克服這些挑戰,OS Agents 將能夠提供更加個性化、動態且具上下文感知能力的幫助。同時,這些 Agents 還將具備更復雜的自我進化機制,能夠持續適應用戶的需求和偏好。
MLLM 的快速發展為 OS Agents 開辟了新的機會,使得“人人擁有賈維斯”的夢想離我們更近。
更多技術細節,請查看原論文。
整理:小羊
如需轉載或投稿,請直接在公眾號內留言





京公網安備 11011402013531號