?阿里推出多模態深度研究智能體WebWatcher

IP屬地中國·北京 編輯：任飛揚 Chinaz 時間：2025-08-18 10:20:28

阿里巴巴自然語言處理團隊宣布推出WebWatcher，這是一個開源的多模態深度研究智能體，旨在突破現有閉源系統和開源Agent在多模態深度研究領域的局限性。WebWatcher通過整合網頁瀏覽、圖像搜索、代碼解釋器和內部OCR等多種工具，能夠像人類研究員一樣處理復雜的多模態任務，展現出強大的視覺理解、邏輯推理、知識調用、工具調度和自我驗證能力。
WebWatcher的開發團隊指出，盡管現有的閉源系統如OpenAI的DeepResearch在文本深度研究方面表現出色，但它們大多局限于純文本環境，難以處理現實世界中復雜的圖像、圖表和混合內容。而現有的開源Agent也面臨兩大瓶頸:一類是專注于文本檢索的Agent，雖然能夠整合信息，但無法處理圖像;另一類是視覺Agent，雖然能夠識別圖像，但缺乏跨模態推理和多工具協同能力。WebWatcher正是為了解決這些瓶頸而設計的。
WebWatcher的技術方案覆蓋了從數據構建到訓練優化的完整鏈路，其核心目標是讓多模態Agent在高難度多模態深度研究任務中具備靈活推理和多工具協作能力。為此，研究團隊設計了一個全自動多模態數據生成流程，通過隨機游走收集跨模態知識鏈，并引入信息模糊化技術，提升任務的不確定性和復雜性。所有復雜問題樣本通過QA-to-VQA轉換模塊擴展為多模態版本，進一步增強了模型的跨模態理解能力。
在高質量推理軌跡構建與后訓練方面，WebWatcher采用了Action-Observation驅動的軌跡生成方法，通過收集真實的多工具交互軌跡并進行監督微調（SFT），讓模型在訓練初期快速掌握多模態ReAct式推理和工具調用的基本模式。隨后，模型進入強化學習階段，通過GRPO進一步提升多模態Agent在復雜環境下的決策能力。
為了全面驗證WebWatcher的能力，研究團隊提出了BrowseComp-VL，這是BrowseComp在視覺-語言任務上的擴展版本，旨在逼近人類專家的跨模態研究任務難度。在多輪嚴格評測中，WebWatcher在復雜推理、信息檢索、知識整合以及聚合類信息尋優等任務上全面領先于當前主流的開源與閉源多模態大模型。
具體來說，在人類終極考試（Humanity’s Last Exam，HLE-VL）這一多步復雜推理基準上，WebWatcher以13.6%的Pass@1分數一舉奪魁，大幅領先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)和Qwen2.5-VL-72B(8.6%)等代表性模型。在更貼近真實多模態搜索的MMSearch評測中，WebWatcher的Pass@1得分高達55.3%，相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)大幅領先。在LiveVQA評測中，WebWatcher的Pass@1成績達到58.7%，領先于其他主流模型。在最具綜合挑戰的BrowseComp-VL基準上，WebWatcher以27.0%的平均得分(Pass@1)遙遙領先，成績提升超過一倍。
倉庫地址:https://github.com/Alibaba-NLP/WebAgent

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

從詩中“配角”到科研“明星”，浮萍正在顛覆未來農業

大眾中國前CEO評小米汽車！

全國首發！重慶發布L3級自動駕駛機動車專用正式號牌！

無人機、機器人沒信號也能通信，科學家探索全新量子糾纏技術框架

人工智能新戰場，在10月后出現了

羅永浩：網速問題已解決，新微信會屏蔽所有媒體人

全站最新

從詩中“配角”到科研“明星”，浮萍正在顛覆未來農業

大眾中國前CEO評小米汽車！

全國首發！重慶發布L3級自動駕駛機動車專用正式號牌！

無人機、機器人沒信號也能通信，科學家探索全新量子糾纏技術框架

熱門推薦

從詩中“配角”到科研“明星”，浮萍正在顛覆未來農業

大眾中國前CEO評小米汽車！

全國首發！重慶發布L3級自動駕駛機動車專用正式號牌！

無人機、機器人沒信號也能通信，科學家探索全新量子糾纏技術框架

芯片，重磅突發！全球首款！

人工智能新戰場，在10月后出現了

羅永浩：網速問題已解決，新微信會屏蔽所有媒體人

OpenAI、xAI打破硅谷鐵律，AI人才年薪破億成常態

AI教父Hinton首爆十年前拍賣：我早已內定谷歌必贏！

AI交易暫時企穩，圣誕行情值得期待否？

世貿組織預測：人工智能有望推動全球貿易增長近40%

小米17手機相機體驗問題修復，此前出現輸出綠色照片情況

谷歌DeepMind：AGI不必是巨型模型，拼湊型AI群或率先涌現，管理大規模Agent迫在眉睫

東風日產天籟?鴻蒙座艙上市首月訂單破萬

雷軍押注，年入超5億，中年男性養不起自己的“泡泡瑪特”