當(dāng)前位置：首頁 ? 資訊 ? 人工智能 ? 正文

阿里開源自主AI智能體WebAgent 可模擬人類感知決策和行動

IP屬地中國·北京 編輯：朱天宇太平洋科技 時(shí)間：2025-05-30 14:32:47

5月30日，阿里巴巴在GitHub上開源一款名為WebAgent的自主搜索人工智能(AI)智能體。該智能體具備端到端的自主信息檢索與多步推理能力，能夠在網(wǎng)絡(luò)環(huán)境中模擬人類的感知、決策和行動。
WebAgent的核心功能在于其強(qiáng)大的自主搜索能力和多步驟邏輯推理能力。它能夠主動搜索多個(gè)學(xué)術(shù)數(shù)據(jù)庫，并根據(jù)用戶需求進(jìn)行深入分析和總結(jié)。此外，WebAgent能夠通過多步推理將不同文獻(xiàn)中的觀點(diǎn)進(jìn)行整合，最終為用戶提供一份全面且精準(zhǔn)的研究報(bào)告。這種能力使得WebAgent在處理復(fù)雜信息檢索任務(wù)時(shí)，表現(xiàn)得如同一位經(jīng)驗(yàn)豐富的專家。
據(jù)悉，WebAgent的技術(shù)核心在于其訓(xùn)練框架——WebDancer。該框架由四個(gè)關(guān)鍵環(huán)節(jié)組成，從數(shù)據(jù)構(gòu)建到訓(xùn)練優(yōu)化，逐步打造出能夠自主完成復(fù)雜信息檢索任務(wù)的智能體。
WebDancer采用了創(chuàng)新的瀏覽數(shù)據(jù)構(gòu)建方法。它通過短推理和長推理兩種方式，利用大模型生成簡潔的推理路徑，或通過推理模型逐步構(gòu)建復(fù)雜的推理過程。這種方法有效解決了傳統(tǒng)數(shù)據(jù)集的局限性，為智能體提供了豐富的訓(xùn)練素材。
在數(shù)據(jù)準(zhǔn)備完成后，WebDancer進(jìn)入監(jiān)督微調(diào)(SFT)階段。這一階段的目標(biāo)是通過高質(zhì)量的軌跡數(shù)據(jù)對智能體進(jìn)行初始化訓(xùn)練，使其能夠適應(yīng)信息檢索任務(wù)的格式和環(huán)境要求。在SFT過程中，WebDancer將軌跡中的思考、行動和觀察內(nèi)容分別標(biāo)記，并計(jì)算損失函數(shù)，以優(yōu)化模型的參數(shù)。為了提高模型的魯棒性，WebDancer在計(jì)算損失時(shí)排除了外部反饋的影響，確保模型能夠?qū)Ｗ⒂谧灾鳑Q策過程。
強(qiáng)化學(xué)習(xí)(RL)階段是WebDancer框架的關(guān)鍵環(huán)節(jié)。在這一階段，智能體通過與環(huán)境的交互，學(xué)習(xí)如何在復(fù)雜的任務(wù)中做出最優(yōu)決策。WebDancer采用了DAPO算法，這是一種專門針對智能體訓(xùn)練設(shè)計(jì)的強(qiáng)化學(xué)習(xí)算法。DAPO算法通過動態(tài)采樣機(jī)制，有效利用未充分利用的QA對，提高數(shù)據(jù)效率和策略的魯棒性。在RL過程中，智能體通過多次嘗試和反饋，逐步優(yōu)化其決策策略，最終實(shí)現(xiàn)高效的多步推理和信息檢索能力。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會在24小時(shí)內(nèi)處理完畢。

同類資訊

大模型進(jìn)展專欄第七期｜人工智能賦能科研范式重塑中國科學(xué)院 “磐石·科學(xué)基礎(chǔ)大模型”

博通發(fā)布Jericho4芯片：臺積電3nm工藝，可連接超100萬顆處理器

中山醫(yī)院獲批國家人工智能應(yīng)用中試基地建設(shè)項(xiàng)目，將打造醫(yī)療AI創(chuàng)新策源地

“人工智能場景化應(yīng)用創(chuàng)新與產(chǎn)業(yè)落地論壇”在哈爾濱舉行多領(lǐng)域創(chuàng)新成果集中亮相

以科技引領(lǐng)產(chǎn)業(yè)，繪人工智能發(fā)展新篇

向新而行｜人工智能的“頭雁”效應(yīng)

全站最新

從詩中“配角”到科研“明星”，浮萍正在顛覆未來農(nóng)業(yè)

大眾中國前CEO評小米汽車！

全國首發(fā)！重慶發(fā)布L3級自動駕駛機(jī)動車專用正式號牌！

無人機(jī)、機(jī)器人沒信號也能通信，科學(xué)家探索全新量子糾纏技術(shù)框架

熱門推薦

中東人工智能金融科技公司Alaan獲4800萬美元融資，助力企業(yè)智能化管理！

大模型進(jìn)展專欄第七期｜人工智能賦能科研范式重塑中國科學(xué)院 “磐石·科學(xué)基礎(chǔ)大模型”

博通發(fā)布Jericho4芯片：臺積電3nm工藝，可連接超100萬顆處理器

美國證券交易委員會成立人工智能專責(zé)小組助力創(chuàng)新與效率提升

伊利諾伊州立法禁止人工智能提供心理健康服務(wù)

中山醫(yī)院獲批國家人工智能應(yīng)用中試基地建設(shè)項(xiàng)目，將打造醫(yī)療AI創(chuàng)新策源地

“人工智能場景化應(yīng)用創(chuàng)新與產(chǎn)業(yè)落地論壇”在哈爾濱舉行多領(lǐng)域創(chuàng)新成果集中亮相

國家安全部：警惕人工智能“數(shù)據(jù)投毒”

“人工智能+”覆蓋12個(gè)領(lǐng)域張家口人工智能應(yīng)用場景加速落地

推動區(qū)域人工智能技術(shù)應(yīng)用中科聞歌人工智能研發(fā)中心啟用

以科技引領(lǐng)產(chǎn)業(yè)，繪人工智能發(fā)展新篇

向新而行｜人工智能的“頭雁”效應(yīng)

警惕人工智能數(shù)據(jù)污染：0.01%虛假文本可使有害輸出增11.2%

庫克：從未對蘋果的產(chǎn)品規(guī)劃感到如此興奮

獨(dú)家對話中國聯(lián)通趙亞暉，AI時(shí)代的“數(shù)據(jù)燃料”是如何煉成的？ | 浪潮對話