智東西
作者 | 李水青
編輯 | 云鵬
智東西8月15日消息,今日晚間,阿里宣布推出首個開源多模態深度研究智能體(Deep Research Agent)——WebWatcher。
市面上的深度研究工具層出不窮,但大多只能圍繞文字進行搜索。WebWatcher的核心創新點在于配備了增強的視覺語言推理能力,能夠圖文結合思考并調用多種工具,從而使研究結果更深入。
比如,當用戶要分析一張圖片里的信息,WebWatcher能調用 “圖片搜索” 找相關圖和說明,用 “OCR” 提取圖片里的文字,用 “文字搜索” 查背景知識,用 “網頁訪問” 看具體網頁內容,用 “代碼工具” 算數據等。
▲WebWatcher運行案例
實驗結果表明,WebWatcher在四個具有挑戰性的VQA(視覺問答)基準測試中全面領先于主流的開閉源多模態大模型:
其在Humanity’s Last Exam(HLE)-VL(復雜推理)、BrowseComp-VL(信息檢索)、LiveVQA(知識整合)和MMSearch(聚合類信息尋優)等任務測試中均獲得高分,超越GPT-4o、Gemini2.5-flash、Qwen2.5-VL-72B、Claude 3.7等模型。
▲WebWatcher測評成績
WebWatcher的技術方案覆蓋了從數據構建到訓練優化的完整鏈路,核心目標是讓多模態Agent在高難度多模態深度研究任務中具備靈活推理和多工具協作能力。整個方法包含三大環節:
1、多模態高難度數據生成:構建具備復雜推理鏈和信息模糊化的訓練數據;
2、高質量推理軌跡構建與后訓練:生成貼近真實多工具交互的推理軌跡,并通過監督微調(SFT)完成初步能力對齊。然后利用GRPO在復雜任務環境中進一步提升模型的決策能力與泛化性;
3、高難度基準評測:構建并使用BrowseComp-VL對模型的多模態深度推理能力進行驗證。
為了更好地評估WebWatcher的能力,阿里提出了BrowseComp-VL,它是BrowseComp在視覺-語言任務上的擴展版本,設計目標是逼近人類專家的跨模態研究任務難度。
GitHub地址:
https://github.com/Alibaba-NLP/WebAgent
論文地址 :
https://arxiv.org/abs/2508.05748
▲論文頁面截圖
結語:突破視覺語言,向深度搜索Agent邁進
自2025年1月推出WebWalker多Agent框架之后,阿里在過去近八個月里加速迭代,陸續推出了原生Agent搜索模型WebDancer、可執行極復雜信息搜索的Agent搜索模型WebSailor、面向信息檢索Agent的數據合成方法WebShaper,向通用搜索Agent不斷邁進。
本次,阿里最新推出的多模態深度研究智能體WebWatcher,進一步突破視覺語言深度研究Agent的新前沿,其構建的BrowseComp-VL基準、自動化軌跡生成與訓練流程,為解決復雜多模態信息檢索任務奠定基礎,也為未來多模態深度研究Agent發展提供方向。





京公網安備 11011402013531號