![]()
新智元報道
編輯:LRST
互聯網技術的發展極大地便利了我們的生活,但許多網絡任務重復繁瑣,降低了效率。為了解決這一問題,研究人員正在開發基于大型基礎模型(LFMs)的智能體——WebAgents,通過感知環境、規劃推理和執行交互來完成用戶指令,顯著提升便利性。香港理工大學的研究人員從架構、訓練和可信性等角度,總結了WebAgents的代表性方法,全面梳理了相關研究進展。
在指尖就能觸達世界的今天,在線互聯網早已深度重塑了我們的生活圖景——從隨時獲取的全球資訊、即時送達的電商購物,到無縫連接的社交互動。
只需一部智能手機或筆記本電腦,人們就能隨時查閱新聞動態、調取學術論文、瀏覽百科全書,這種信息獲取的自由度徹底打破了時空壁壘,讓偏遠地區也能平等享受教育、醫療和法律等基礎服務。
然而,在這看似便利的數字世界背后,現實中的網絡活動卻隱藏著大量重復低效的「數字苦力」:如圖1所示,我們不得不在不同平臺反復填寫相同的個人信息,在購物時需要手動比對數以百計的商品參數,這些機械化的操作構成了現代人難以逃脫的「數字流水線」。
![]()
圖1常見的互聯網Web活動及WebAgents流程示意圖。WebAgents在接收到用戶指令后,通過感知環境、推理行動序列并執行交互,自動完成任務。
為了解決這一瓶頸,構建具備高度智能化的自動化智能體(AIAgents)成為當前AI領域極具前景的研究方向。AI智能體可持續執行任務,無懼疲勞與性能下降,能顯著提高流程的穩定性與執行效率。
尤其在互聯網Web環境中,部署AI智能體—即WebAgents—來輔助用戶完成人類世界中的復雜繁瑣的Web任務。
在大模型驅動的Web自動化浪潮中,WebAgents的發展不僅關乎效率提升,更是工作范式的轉變,并預示著人機關系的新紀元。
當您下次面對繁瑣的網絡操作時,或許該認真考慮:這個任務,是否該交給更專業的AI數字同事?
近年來,基礎大模型(Large Foundation Models, LFMs)展現出了類人智能,正快速重塑醫療健康、電子商務、 AI4Science 等多個重要領域的工作范式。
例如當基礎大模型與蛋白質序列數據結合使用時,能夠有效捕捉底層結構信息,推動藥物發現與疾病機制研究的進展;
在推薦系統(Recommender Systems, RecSys)中,基礎大模型也展現出強大的語義建模與推理能力,極大提升了個性化推薦的準確性和靈活性。
依托其廣泛的世界知識、指令遵循能力以及語言理解與推理能力,基礎大模型在模擬人類行為與執行復雜任務方面展現出巨大潛力。
這一技術進展自然引出了一個關鍵而富有前景的研究問題:我們是否能夠將基礎大模型與互聯網Web環境(如,網頁、GUI、APPs)相結合,開發出能夠自動處理Web任務的強大智能體,即WebAgents,從而真正實現網絡活動的自動化與智能化?
為了充分挖掘基礎大模型的潛力,近期的研究致力于發展基于基礎大模型的WebAgents,其能夠根據用戶指令在網絡世界完成各種復雜的網頁任務。
例如,最近推出的新型AI智能體 ChatGPT Agent引起了學術界和工業界的廣泛關注,它在自主處理工作和日常環境中的復雜任務方面展現出了令人震驚的能力。
與聊天機器人不同,ChatGPT Agent能夠獨立規劃和執行復雜任務,進行自動化搜索和多步操作,無需用戶持續提供指令和監督。如圖1所示,用戶只需提供一條自然語言指令,例如「通過電子郵件在2024年11月23日下午4點與Leon在星巴克安排一次會議」。
WebAgents可以自主打開「電子郵件」應用,獲取Leon的郵箱地址,撰寫郵件并發送,從而實現整個會議安排流程的自動化,極大提升日常生活的便利性。
鑒于基礎大模型賦能的WebAgents開發取得的顯著進展以及相關研究數量的不斷增長,亟需對該領域的最新進展進行系統性綜述。
為彌補這一空白,香港理工大學的研究人員從架構、訓練和可信性等角度,總結了WebAgents的代表性方法,全面梳理了相關研究進展。
![]()
論文鏈接:https://arxiv.org/pdf/2503.23350
SIGKDD Tutorial&PPT教程:https://biglemon-ning.github.io/WebAgents/
WebAgents架構
WebAgents在完成用戶指令時主要包括三個過程:
1)感知:要求WebAgents能夠準確地觀察當前環境;
2)規劃與推理:要求WebAgents 正確分析當前環境,理解用戶給定的任務,并合理地預測下一步行動;
3)執行:要求WebAgents能夠有效地執行生成的動作并與環境進行交互。
![]()
圖2WebAgents整體框架示意圖,包括三個關鍵流程:感知、規劃與推理,以及執行。WebAgents首先在感知階段觀測環境信息;隨后,在規劃與推理階段基于觀測結果生成相應動作;最后,WebAgents執行生成的動作,從而完成用戶任務。
感知
大多數基礎大模型只需接受用戶指令并通過推理生成相應的文本回復。
然而,WebAgents在復雜的網頁環境中運行時,還需要能夠準確地感知外部環境,并結合用戶任務對動態環境進行行為推理。
如圖2所示,根據環境向WebAgents提供的數據模態,現有研究可以分為三類:
1)基于文本的WebAgents,
2)基于視覺的WebAgents,
3)多模態WebAgents。
基于文本的WebAgents
隨著大語言模型(Large Language Models, LLMs)的發展,大量研究致力于利用其媲美人類的理解和推理能力,幫助用戶完成復雜任務 [1]。
由于LLMs只能處理自然語言,這類WebAgents通常利用網頁的文本數據(如HTML)來感知環境。
例如,MindAct [2] 提出了一個兩階段框架,將微調后的小語言模型與LLM結合,高效地處理大型HTML文檔,在保留關鍵信息的同時顯著減少輸入規模。
這種方法能夠準確預測目標元素及對應的操作,有效平衡了網頁任務中的效率與性能。
基于視覺的WebAgents
盡管基于文本的WebAgents取得了顯著成功,但利用環境的文本數據進行感知與人類的認知過程并不契合且不能很好泛化到不同的Web環境(如,PC端和移動APP端),因為圖形用戶界面(Graphical User Interface, GUI)本質上是視覺化的。
此外,文本表示通常是冗長的并且在不同環境中存在極大的差異,導致泛化能力較差并增加了計算開銷。
近年來,大型視覺-語言模型(Vision Language Models, VLMs)的突破極大提升了AI系統處理復雜視覺輸入的能力。
為了利用VLMs的視覺理解能力,許多研究將其集成到WebAgents中,利用截圖來進行視覺化環境感知。
例如,有研究提出可以僅依賴截圖作為環境觀測來預測下一步動作,并通過引入定位預訓練過程,提升了WebAgents在截圖中定位相關視覺元素的能力。
多模態WebAgents
除了單獨利用文本數據或視覺來感知環境外,許多研究還利用多模態信息,結合不同數據各自的互補優勢,為WebAgents提供更全面的環境感知能力。
例如,WebVoyager [3] 通過同時處理交互式網頁元素的截圖和文本內容,使得 WebAgents 自主地完成復雜任務。
它采用Set-of-Mark prompting,在網頁上疊加可交互元素的邊界框,極大提升了智能體的決策能力,實現了準確的動作預測與執行。
規劃與推理
在感知到環境信息之后,WebAgents通常需要生成合適的動作來執行用戶的指令。這一過程需要利用基礎大模型的推理能力分析當前環境狀態。
如圖2所示,該過程包含三個子任務:
1)任務規劃,主要是對用戶指令進行重組并設定子目標,幫助WebAgents有效應對復雜的用戶請求;
2)動作推理,引導WebAgents生成合適的動作以完成用戶指令;
3)記憶利用,使WebAgents能夠利用內部信息(如先前的動作)或外部信息(如網頁搜索獲得的開放世界知識),以預測更合適的動作。
任務規劃
對WebAgents 而言,任務規劃的目標是根據用戶給定的指令確定智能體應實現的一系列子任務。
根據WebAgents是否明確包含任務分解過程,現有研究可分為兩類:1)顯式規劃和2)隱式規劃。
顯式規劃方法通常將用戶指令分解為多個子任務,并逐步生成動作來完成這些子任務。
例如,有研究將用戶指令分解為子任務并同時引入了反思階段,引導智能體根據當前進展決定是繼續、重試還是重新制定計劃,使整個流程更符合人類的思考過程。
隱式規劃方法則直接將用戶指令和環境觀測輸入智能體,而不進行明確的任務分解過程。
例如可以直接將任務信息提供給智能體,并將篩選后的文檔對象模型(document Object Model, DOM)元素作為觀測,逐步引導其生成動作。
動作推理
動作推理利用智能體的推理能力和當前環境觀測,推斷出下一步應采取的動作。
根據策略的不同,現有的推理方法大致可以分為兩類:1)反應式推理和2)策略性推理。反應式推理指WebAgents僅接收觀測和指令,直接生成下一步動作,無需額外操作。
而策略性推理通常會引入額外操作,以增強智能體的推理能力。
最常見的兩種方法包括:引入額外的探索過程和整合額外的上下文信息,這兩種方式都能有效提升智能體動作生成的準確性。
例如,有研究提出了一種LLM驅動的探索策略,在執行前利用自然語言描述對候選動作的結果進行模擬和預測,使智能體能夠在每一步評估并選擇最優動作。
這種動作模擬機制能夠顯著提升決策的準確性,同時減少與網頁的不必要交互。
記憶利用
除了任務規劃和動作推理之外,記憶的有效利用也是提升WebAgents能力的關鍵因素之一。
根據其來源,記憶通常可以分為:1)短期記憶和2)長期記憶。
短期記憶通常指為完成當前用戶任務而執行的先前動作。在生成下一步動作時考慮短期記憶,可以有效避免重復操作,提高任務完成效率。
長期記憶則指那些能夠長期保存的外部信息,如先前執行任務的動作軌跡和通過在線搜索獲得的知識。通過檢索這些外部知識作為參考,可以顯著提升WebAgents的任務成功率。
例如,Agent S [4] 同時利用在線網頁搜索獲取外部知識,以及敘事記憶獲取內部任務相關經驗(包括成功和失敗軌跡的總結),以生成能夠完成用戶指令的子任務序列。
之后,還會檢索一些類似的子任務經驗,供動作生成器預測下一步動作時參考。
執行
WebAgents完成用戶指令的最后一步是與網頁進行交互并執行生成的動作。
如圖2所示,這一過程中包含兩個任務:1)定位,旨在確定智能體將要交互的元素位置;2)交互,在選定元素上執行生成的操作。
定位
由于網頁通常包含大量可交互元素,選擇正確的元素來執行生成的動作對于完成用戶任務至關重要。
根據WebAgents的定位策略,現有研究可分為兩類:1)直接定位和2)推理定位。直接定位是指WebAgents直接生成候選元素在截圖中的坐標,或從整個HTML中選擇一個元素進行交互。
例如直接引導智能體生成正確的動作(如 [CLICK])及其對應參數(如 [CLICK] 的坐標),以定位網頁中將要交互的元素。推理定位則涉及利用額外的輔助模塊來定位目標元素。
例如,有研究引入了一個通用多模態LLM作為解釋器,負責將用戶指令翻譯為詳細的動作描述,并引入一個GUI專用多模態語言模型作為定位器,根據生成的動作描述在屏幕截圖中準確識別目標GUI元素。
交互
最后,WebAgents需要利用生成的動作與目標元素進行交互。
根據WebAgents與網頁交互的方式,現有研究大致可以分為兩類:1)基于網頁瀏覽的方法和2)基于工具的方法。
基于網頁瀏覽的方法采用人類在瀏覽網站時常用的典型操作,如點擊、滾動和輸入來與網頁進行交互。基于工具的方法則涉及使用額外的工具(如應用程序接口API)與網頁進行交互。
例如,API-calling agent [5] 通過引入API交互,擴展了傳統WebAgents的動作空間,使智能體能夠完全繞過基于GUI的交互,從而提升了在真實在線任務中的效率和適應性。
WebAgents訓練
有關于WebAgents的訓練主要包含兩個基本方面:
1)數據。數據是WebAgents訓練的基石,其為模型提供多樣且具有代表性的樣本,幫助模型學習與網頁相關的模式;
2)訓練策略。訓練策略則是指WebAgents通過不同方法獲取和提升能力的過程。
WebAgents的整體訓練框架如圖3所示,包括訓練數據的構建和訓練策略的制定。
![]()
圖3WebAgents訓練流程示意圖。訓練數據的構建包括兩個過程:1)數據預處理,旨在減少不同數據之間模態和格式的差異;2)數據增強,用于提升訓練數據的數量和多樣性。在訓練策略方面,主要分為四類:1)無訓練方法,直接通過提示詞引導基礎大模型完成網頁任務;2)GUI理解能力訓練,提升通用基礎大模型的GUI理解能力;3)特定任務微調,增強WebAgents任務導向的特定任務解決能力;4)后訓練,通過與網頁交互獲得獎勵反饋,進一步優化WebAgents的策略。
數據
數據是支撐現代WebAgents訓練的基礎,其構建包括兩個關鍵步驟:1)數據預處理,對數據進行精煉和結構化,以提升其可用性和質量;2)數據增強,通過擴充數據集的數量和多樣性,進一步提升模型的泛化能力。
數據預處理
Web環境通常包含多種模態(如文本和圖像),并且不同平臺的數據之間存在格式差異。網頁數據的多模態特性為深入理解當前環境提供了豐富的信息,但是不同模態之間的差異以及數據粒度層面的不一致也為模型訓練帶來了顯著挑戰。
為了有效利用多模態信息,有研究通過網頁截圖和增強的可訪問性樹捕捉關鍵網頁元素及布局結構,增強了文本與視覺數據之間的豐富交互,同時過濾掉網站中的無關數據。
此外,不同設備平臺的Web環境通常存在數據格式差異,如命名沖突,這就需要額外的格式對齊機制。例如,移動設備上的tap操作對應于PC端的click操作,這可能導致模型在跨平臺理解和執行任務時出現一致性混淆。
為了解決這一問題,有研究對跨設備跨平臺數據集中的動作空間進行了格式對齊,進而緩解了異構數據整合帶來的潛在不一致性。
數據增強
大規模數據是基礎大模型涌現智能的基礎。對于由基礎大模型驅動的WebAgents來說,收集大量多樣化的訓練數據至關重要,這有助于其提升對網絡環境的感知能力、下一步動作推理能力以及復雜網頁操作的執行能力。
根據數據獲取方式,數據增強方法可分為兩類:1)數據收集和2)數據合成。
數據收集指從公開數據集或真實場景中收集數據。
部分研究表明,與其無差別地整合所有可用數據,從公開數據集中有針對性地采樣高質量、具代表性的數據,可以顯著提升WebAgents的性能。
但是,盡管由人工專家標注的數據質量較高,其高昂的人力成本限制了數據集的規模,導致模型訓練不足,泛化能力有限。
為了應對這一挑戰,在不依賴人工或視覺語言模型的情況下,多種自動生成方法構建了高性價比的數據集。例如,UINav [6] 通過隨機化次級UI元素的屬性(如文本嵌入或元素偏移),在不增加額外數據收集負擔的情況下,擴充演示數據,從而緩解訓練數據稀缺的問題。
數據合成則是指在真實樣本不足或獲取成本較高時,利用大語言模型或視覺語言模型自動生成與網頁相關的合成數據集,以豐富訓練數據。除了這類基礎的數據合成方法(如從網頁抓取元素并為其生成注釋),部分研究還專注于生成豐富的問答(Question and Answer, QA)對,以進一步提升WebAgents的GUI理解能力。
訓練策略
在收集到大規模數據集后,如何高效利用這些數據進行WebAgent訓練至關重要。
根據訓練策略所采用的學習范式、數據使用方式和優化目標的不同,現有研究大致可以分為四類:1)無訓練(Training-free),2)GUI理解能力訓練(GUI Comprehension Training),3)特定任務微調(Task-specific Fine-tuning),以及4)后訓練(Post-training)。
無訓練(Training-free)
隨著基礎大模型的快速發展,由于這些模型具備類人智能和強大的視覺、文本理解能力,其極大地推動了智能WebAgents的發展。
基于這些能力,無訓練方法直接通過精心設計的提示詞(prompts)引導模型執行網頁任務,從而將基礎大模型適配為專用WebAgents。這類方法無需對模型結構進行修改或參數更新。
例如,CoAT [7] 提出了「動作-思考鏈」提示范式,將動作與思考過程結合,使導航更高效。
該范式結合屏幕描述、先前動作及其結果,為下一步動作的決策提供明確解釋,并生成后續步驟的文本描述及其可能結果。
GUI理解能力訓練(GUI Comprehension Training)
盡管通用的基礎大模型在大規模數據集上進行了廣泛訓練,但它們在GUI理解能力(尤其是屏幕理解和OCR)方面仍存在不足,難以有效理解和交互網頁。
例如,通用基礎大模型可能關注裝飾性圖標或背景文本,而忽略關鍵界面元素,導致對元素功能的忽略及誤解。為彌補這一差距,許多GUI理解能力訓練方法通過在大規模網頁數據集上的有監督學習,進一步提升了WebAgents的基礎GUI理解能力。
例如,Aguvis [8] 提出了兩階段訓練范式,首先將GUI環境統一為圖像,并在預訓練階段專注于模型對單一GUI截圖中的元素進行理解與交互的訓練,為后續微調打下堅實基礎。
特定任務微調(Task-specific Fine-tuning)
盡管WebAgents通過GUI理解能力訓練能夠有效增強對于網頁環境信息的理解能力,但由于網頁環境的復雜性和用戶目標的多樣性,如何基于用戶任務進行準確推理并生成下一步網頁交互動作仍然是重大挑戰。
因此,特定任務微調旨在賦予WebAgents面向網頁任務的技能,如規劃、推理和網頁交互能力。
例如,有研究提出了一種基于大語言模型的模型,該模型利用腳本式規劃數據集進行微調,使其能夠完成規劃、總結和執行等一系列操作,具體而言:
將自然語言指令分解為可管理的子指令;將冗長的HTML文檔總結為與任務相關的片段;并通過自生成的Python代碼執行操作。
后訓練(Post-training)
在有監督訓練之后,后訓練使WebAgents能夠在面對指數級龐大且動態變化的網頁環境時持續適應環境并提升能力。
鑒于網頁交互的開放性,僅僅依賴于靜態數據集的訓練方法存在明顯局限,因此強化學習成為關鍵的后訓練技術。
隨著網頁界面的不斷演化以及用戶需求的持續變化,強化學習使WebAgents能夠通過探索動態環境和交互反饋來實現實時適應。
例如,大量研究采用漸進式強化學習框架,通過自主與網頁環境交互,實現持續自進化學習。在交互過程中,該模型從真實網站中獲得的知識具有動態性,使系統能夠實時適應并優化其決策能力。
可信賴的WebAgents
隨著WebAgents的不斷發展,越來越多的研究和實際案例揭示了WebAgents的潛在風險與挑戰。
最新研究表明,與網絡系統深度集成的智能體可能帶來多方面威脅,例如在安全性要求較高的場景下的不可靠和不透明決策,以及對邊緣群體的偏見和不公正。
此外,用戶隱私和敏感商業信息的無意泄露問題也引發了廣泛關注,進一步凸顯了保障WebAgent技術安全性的重要性和緊迫性。
與此同時,泛化能力的局限也為WebAgents在面對多樣化情境時帶來嚴重風險,可能導致其在處理分布外數據或跨領域操作時出現關鍵性失誤。
因此,開發可信賴的WebAgents(包括安全與魯棒性、隱私保護和泛化能力)已成為研究熱點。
安全與魯棒性(Safety & Robustness)
WebAgents需具備應對噪聲和對抗攻擊的能力,這對于其在復雜的真實網絡環境中的正常運行至關重要。例如,大量研究探索了WebAgents對黑盒攻擊(如網頁中注入對抗性提示詞)的脆弱性,這類攻擊可能導致惡意的股票買入或銀行轉賬等嚴重后果。
為系統地評估安全性,Kumar等人 [10] 開發了BrowserART測試套件,專為 WebAgents的安全測試設計,涵蓋100種有害行為。這一研究發現即使經過防御訓練的模型在網絡場景下也很容易被攻破。
為提升安全性,Step [11] 將網頁操作策略動態組合為馬爾可夫決策過程,確保WebAgents在不同策略間有效切換控制權。
隱私保護(Privacy)
WebAgents 能夠在真實網站上自主完成多種任務,極大提升了人類生產力,但如機票預訂等任務涉及用戶個人數據和財務信息,若WebAgents誤入惡意網站,可能導致用戶隱私泄露。
在這種情況下,防止數據泄漏和未授權訪問至關重要。Wang等人 [12] 研究了大模型驅動的智能體的隱私風險,提出了黑盒攻擊MEXTRA,揭示了大模型驅動的智能體在防止內存中私密信息被提取方面的脆弱性。
Liao等人 [13] 提出環境注入攻擊(Environment Injection Attack, EIA),通過向網絡環境注入惡意內容,可以有效竊取用戶個人信息或完整請求,進一步暴露了WebAgents在隱私保護方面的風險。
泛化能力(Generalizability)
許多WebAgents的有效性依賴于訓練和測試數據同分布的假設,但實際中經常因域外分布(Out-of-Distribution, OOD)問題而導致 WebAgents 性能下降,這對重要場景下的WebAgents部署構成了極大的挑戰。為提升泛化能力,有研究通過引入世界模型,模擬環境反饋進行策略自適應。
除上述三大維度外,可信WebAgents還涉及公平性(Fairness)和可解釋性(Explainability)等重要方向。
盡管這些方向同樣關鍵,但相關研究尚處于起步階段,特別是在WebAgent領域。因此,這些內容將作為未來研究重點在后續章節進一步探討。
未來研究方向
由于WebAgents的研究尚處于初級階段,仍有若干值得關注的研究方向:
WebAgents的公平性與可解釋性(Fairness and Explainability)
現有研究主要聚焦于提升WebAgents的能力,而對其可信性關注較少,尤其是在公平性和可解釋性方面。公平性要求WebAgents在感知、推理和執行過程中不帶偏見。
例如,不同性別用戶請求WebAgents搜索合適職位時,智能體應公平處理,而非基于刻板印象(如認為男性更適合做律師、女性更適合做護士)進行推薦。
可解釋性則要求WebAgents能夠對自身行為給出合理解釋,幫助用戶理解其內部機制,確保其在高風險場景(如股票投資、分子設計)中的可靠性。
WebAgents的數據集與評測基準(Datasets and Benchmarks)系統性評估
WebAgents的性能已成為關鍵研究方向,目前已有多個綜合性基準用于嚴格且公平地評測WebAgents性能。盡管取得了顯著進展,但大多數基準僅關注 WebAgents的某一方面或特定場景,往往忽略了諸如適應多樣網頁布局、應對突發錯誤的魯棒性、或處理復雜任務的能力。
此外,許多現有評測未能充分反映真實世界的復雜性,如網絡速度波動、網站結構不一致,以及長時交互中對上下文的持續推理需求。因此,亟需更全面、均衡的評測基準,以充分評估WebAgents的能力。
個性化WebAgents(Personalized WebAgents)
盡管現有基礎大模型驅動的WebAgents在多種網頁任務中表現出色,但由于其參數規模巨大且訓練成本高昂,這極大地限制了其個性化能力的發展。
因此,開發既具備強大能力又能實現有效個性化的WebAgents,是一個具有挑戰性但前景廣闊的研究方向。為應對這一挑戰,研究者開始探索新的方法,如將檢索增強生成(Retrieval-Augmented Generation, RAG)系統與長短期記憶機制結合。
長期記憶支持WebAgents在長時間內檢索和存儲相關信息,使其能夠持續、個性化地理解用戶;短期記憶則幫助WebAgents在實時對話或任務中快速適應當前上下文,實現靈活響應。通過整合這些機制,個性化WebAgents能夠實現更高的適應性,為用戶提供更貼合需求的定制化解決方案。
面向特定領域的 WebAgents (Domain-Specific WebAgents)
近年來,越來越多的研究表明,基于基礎大模型的 WebAgents 在各類垂直領域中具有廣闊的應用前景。然而,盡管將通用 WebAgents 應用到特定場景例如教育、醫療等專業領域存在著迫切的現實需求和顯著的潛在價值,但當前有關這類研究的探索仍然較為有限。
因此,如何將通用型 WebAgents 有效地適配到特定領域,正逐漸成為一個值得深入研究的發展方向。
為了實現可靠的領域專屬WebAgents,需要滿足一系列關鍵條件:構建貼合該領域特點的定制化知識庫;設計穩健的數據安全機制,以妥善處理敏感信息;以及具備足夠的靈活性,以應對快速變化的行業需求。
這些關鍵能力的構建不僅有助于提升 WebAgents 的實際效用,也可以極大拓展其在專業領域中的應用前景。
參考資料:
Liangbo Ning, et. al. “A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models” In ACM SIGKDD, 2025. arXiv:2503.23350, 2025.
Fan, Wenqi, et al. "A survey on RAG meeting LLMs: Towards retrieval-augmented large language models." Proceedings of the 30th ACM SIGKDD conference on knowledge discovery and data mining. 2024.
Xiang Deng, et al. Mind2web: Towards a generalist agent for the web. Advances in Neural Information Processing Systems 36 (2023), 28091–28114. 2023.
Hongliang He, et al. WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 6864–6890. 2024.
Saaket Agashe, et al. Agent S: An Open Agentic framework that Uses Computers Like a Human. In The Thirteenth International Conference on Learning Representations. 2025.
Yueqi Song, et al. Beyond Browsing: API-based Web Agents. arXiv preprint arXiv:2410.16464 (2024). 2024.
Wei Li, et al. UINav: A practical approach to train on-device automation agents. arXiv preprint arXiv:2312.10170 (2023). 2023.
Jiwen Zhang, et al. Android in the zoo: Chain-of-action-thought for GUI agents. arXiv preprint arXiv:2403.02713 (2024). 2024.
Yiheng Xu, et al. Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction. arXiv preprint arXiv:2412.04454 (2024). 2024.
Fangzhou Wu, et al. Wipi: A new web threat for LLM-driven web agents. arXiv preprint arXiv:2402.16965 (2024). 2024.
Priyanshu Kumar, et al. Refusal-trained LLMs are easily jailbroken as browser agents. arXiv preprint arXiv:2410.13886 (2024). 2024.
Paloma Sodhi, et al. Step: Stacked LLM policies for web actions. arXiv preprint arXiv:2310.03720 (2023). 2023.
Bo Wang, et al. Unveiling Privacy Risks in LLM Agent Memory. arXiv preprint arXiv:2502.13172 (2025). 2025.
Zeyi Liao, et al. Eia: Environmental injection attack on generalist web agents for privacy leakage. arXiv preprint arXiv:2409.11295 (2024). 2024.
![]()





京公網安備 11011402013531號