![]()
如何讓智能體進(jìn)行復(fù)雜推理與工具調(diào)用?傳統(tǒng)方法主要有兩類:訓(xùn)練單一的大語(yǔ)言模型,使其同時(shí)承擔(dān)思考與工具調(diào)用的任務(wù);要么依賴靜態(tài)提示詞驅(qū)動(dòng)的 training-free 智能體系統(tǒng)。
然而,前者在長(zhǎng)鏈推理、工具多樣化與動(dòng)態(tài)環(huán)境反饋下訓(xùn)練常變得不穩(wěn)定,缺乏可擴(kuò)展性(scalability);后者則缺少學(xué)習(xí)與適應(yīng)能力,難以應(yīng)對(duì)復(fù)雜場(chǎng)景。
為此,斯坦福大學(xué)聯(lián)合德州農(nóng)工大學(xué)(Texas A&M)、加州大學(xué)圣地亞哥分校(UC San Diego)和 Lambda 的研究團(tuán)隊(duì)提出了 AgentFlow 框架,通過(guò)多個(gè)獨(dú)立 Agent 模塊協(xié)作,并且提出 Flow-GRPO 算法用于訓(xùn)練。在評(píng)測(cè)中,AgentFlow 在搜索、代理、數(shù)學(xué)與科學(xué)任務(wù)上均取得顯著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。
![]()
該方法創(chuàng)新性地將智能體協(xié)作推理與強(qiáng)化學(xué)習(xí)融為一體,提出流中強(qiáng)化學(xué)習(xí)機(jī)制,讓智能體系統(tǒng)在推理流中協(xié)同演化,形成「動(dòng)態(tài)共振」效應(yīng)。使其在長(zhǎng)期規(guī)劃能力、工具調(diào)用效率和動(dòng)態(tài)推理深度上實(shí)現(xiàn)大幅提升,并在搜索、數(shù)學(xué)、科學(xué)及智能體任務(wù)等多個(gè)領(lǐng)域展現(xiàn)優(yōu)秀的泛化能力。
![]()
項(xiàng)目主頁(yè):https://agentflow.stanford.edu/論文鏈接:https://huggingface.co/papers/2510.05592開(kāi)源代碼:https://github.com/lupantech/AgentFlow開(kāi)源模型:https://huggingface.co/AgentFlow在線 Demo:https://huggingface.co/spaces/AgentFlow/agentflowYouTube 視頻:https://www.youtube.com/watch?v=kIQbCQIH1SI
![]()
該工作目前不僅在X 上收獲了超高的關(guān)注度,同時(shí)榮登Huggingface Paper 日榜第二名!
![]()
https://x.com/lupantech/status/1976016000345919803
![]()
https://huggingface.co/papers/date/2025-10-08
研究動(dòng)機(jī):
從「單兵作戰(zhàn)」到「團(tuán)隊(duì)協(xié)作」
目前,讓語(yǔ)言模型學(xué)會(huì)使用工具進(jìn)行復(fù)雜任務(wù)推理主要有兩種思路:一種是訓(xùn)練一個(gè)「全能型」模型,讓它既要思考又要調(diào)用工具,所有操作都在一個(gè)完整的上下文中交織進(jìn)行;另一種是采用「智能體系統(tǒng)」,將任務(wù)分解給多個(gè)專門化的智能體模塊協(xié)同完成。
![]()
第一種方法在簡(jiǎn)單場(chǎng)景中表現(xiàn)良好,但在面對(duì)長(zhǎng)鏈推理、多樣化工具調(diào)用以及動(dòng)態(tài)環(huán)境反饋時(shí),訓(xùn)練過(guò)程往往不穩(wěn)定,難以實(shí)現(xiàn)良好的可擴(kuò)展性。第二種方法雖然具備更高的靈活性,但多數(shù)系統(tǒng)依賴人工設(shè)計(jì)的提示詞與邏輯,缺乏從經(jīng)驗(yàn)中自我學(xué)習(xí)與優(yōu)化的能力。
這使得研究團(tuán)隊(duì)思考:能否讓智能體系統(tǒng)也具備「邊做邊學(xué)」的能力,使其能夠在交互中不斷進(jìn)化?
AgentFlow:
在流中學(xué)習(xí)的智能體系統(tǒng)
為了解決以上挑戰(zhàn),研究團(tuán)隊(duì)提出了AgentFlow—— 一個(gè)可訓(xùn)練的、工具集成的智能體系統(tǒng),旨在突破現(xiàn)有方法在可擴(kuò)展性與泛化能力上的限制。AgentFlow 采用了模塊化的智能體結(jié)構(gòu),由四個(gè)具備記憶能力的專門化智能體協(xié)同配合,共同完成復(fù)雜推理,從而實(shí)現(xiàn)「即時(shí)學(xué)習(xí)」:
規(guī)劃器(Action Planner):分析任務(wù)、制定策略并選擇最合適的工具執(zhí)行器(Tool Executor):調(diào)用工具集并整合工具執(zhí)行結(jié)果驗(yàn)證器(Verifier):基于系統(tǒng)維護(hù)的累積記憶評(píng)估中間結(jié)果是否滿足目標(biāo)與約束生成器(Generator):整合所有信息與驗(yàn)證反饋,生成最終答案或行動(dòng)建議
AgentFlow 的關(guān)鍵創(chuàng)新在于:規(guī)劃器(Planner)并非固定不變,而是能夠在智能體交互的「流」(flow)中實(shí)時(shí)進(jìn)行 on-policy 優(yōu)化,使決策過(guò)程隨著環(huán)境變化及其他智能體的反饋不斷自適應(yīng)進(jìn)化。通過(guò)這一機(jī)制,各模塊在推理流中協(xié)同演化,使整個(gè)智能體系統(tǒng)在復(fù)雜環(huán)境下實(shí)現(xiàn)自適應(yīng)推理(adaptive reasoning)與魯棒工具調(diào)用(robust tool-calling)
![]()
Flow-GRPO:
流中強(qiáng)化學(xué)習(xí)優(yōu)化算法
實(shí)現(xiàn)智能體流中強(qiáng)化學(xué)習(xí)訓(xùn)練的核心挑戰(zhàn)在于多輪信用分配(multi-turn credit assignment):即如何在長(zhǎng)時(shí)跨度(long-horizon)獎(jiǎng)勵(lì)稀疏(sparse reward)的條件下,穩(wěn)定且高效地訓(xùn)練。為此團(tuán)隊(duì)提出動(dòng)作級(jí)別的(Action Level)的多輪推理優(yōu)化目標(biāo):
![]()
通過(guò)將軌跡最終結(jié)果的成功或失敗信號(hào)(outcome reward)廣播至每一步,將原本復(fù)雜的多輪強(qiáng)化學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一系列可處理的單輪策略更新。該方法不僅緩解了獎(jiǎng)勵(lì)稀疏問(wèn)題,還顯著提升了訓(xùn)練效率,為智能體在復(fù)雜多輪推理中的穩(wěn)定學(xué)習(xí)提供了基礎(chǔ)。
![]()
實(shí)驗(yàn)結(jié)果:
AgentFlow 全面基準(zhǔn)測(cè)試
為了充分評(píng)估 AgentFlow 的泛化能力與高效性,研究團(tuán)隊(duì)在 10 個(gè)跨各個(gè)領(lǐng)域的基準(zhǔn)測(cè)試上進(jìn)行了系統(tǒng)評(píng)測(cè),涵蓋知識(shí)檢索、智能體任務(wù)、數(shù)學(xué)推理和科學(xué)推理四大類。 以 Qwen-2.5-7B-Instruct 為基座模型的 AgentFlow 在各項(xiàng)基準(zhǔn)上均超越現(xiàn)有領(lǐng)先方法:
知識(shí)檢索(Search):提升 +14.9%智能體推理(Agentic Reasoning):提升 +14.0%數(shù)學(xué)推理(Math):提升 +14.5%科學(xué)推理(Science):提升 +4.1%
值得注意的是,AgentFlow 的表現(xiàn)甚至超過(guò)了大規(guī)模的專有模型,如 GPT-4o(~200B)。
![]()
![]()
實(shí)驗(yàn)發(fā)現(xiàn):
小模型的「大智慧」
研究團(tuán)隊(duì)在 10 個(gè)基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估,涵蓋知識(shí)檢索、智能體任務(wù)、數(shù)學(xué)推理和科學(xué)推理四大類。 一些有趣的發(fā)現(xiàn):
模型規(guī)模不是唯一答案
使用 7B 參數(shù)的 AgentFlow 在多個(gè)任務(wù)上超過(guò)了約 200B 參數(shù)的 GPT-4o,Llama3.1-405B,在搜索任務(wù)上領(lǐng)先 8.2%,在智能體任務(wù)上領(lǐng)先 15.8%。這再一次展現(xiàn)了,合理的系統(tǒng)設(shè)計(jì)和訓(xùn)練方法可能比單純堆砌參數(shù)訓(xùn)練 All in one 的大模型更有效。
「在流中學(xué)習(xí)」至關(guān)重要
對(duì)比實(shí)驗(yàn)顯示,若采用離線監(jiān)督學(xué)習(xí)(SFT)方式訓(xùn)練規(guī)劃器,性能反而顯著下降,平均降低 19%。這表明,智能體在真實(shí)交互環(huán)境「流」中進(jìn)行在線學(xué)習(xí)是實(shí)現(xiàn)高效推理的必要條件。此外,盡管 AgentFlow 的推理流本身能夠利用其強(qiáng)大的任務(wù)分解能力帶來(lái)顯著性能提升,但仍可能出現(xiàn)循環(huán)錯(cuò)誤或卡頓問(wèn)題。通過(guò)在真實(shí)環(huán)境中的訓(xùn)練,智能體系統(tǒng)展現(xiàn)出快速修正錯(cuò)誤的工具調(diào)用、更精細(xì)的子任務(wù)規(guī)劃,以及全局任務(wù)解決性能的提升。
這些結(jié)果進(jìn)一步證明了模塊協(xié)作機(jī)制以及流中強(qiáng)化學(xué)習(xí)在提升多輪智能體系統(tǒng)穩(wěn)定性與效率方面的顯著作用。
![]()
![]()
自主發(fā)現(xiàn)新的解決路徑
有意思的是,經(jīng)過(guò) Flow-GRPO 的強(qiáng)化訓(xùn)練規(guī)劃器,系統(tǒng)學(xué)會(huì)了根據(jù)任務(wù)特點(diǎn)選擇合適的工具組合;同時(shí),經(jīng)過(guò)訓(xùn)練的系統(tǒng)會(huì)自發(fā)探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search)和特定網(wǎng)頁(yè)增強(qiáng)搜索(Web Search)的連招,通過(guò)工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒(méi)有在未訓(xùn)練的推理流中出現(xiàn)。
![]()
動(dòng)態(tài)推理深度與性能提升
對(duì)于相同的數(shù)據(jù)集下的不同難度任務(wù):譬如說(shuō)多跳搜索(Multihop Search),智能體任務(wù)中的密集長(zhǎng)鏈推理任務(wù),AgentFlow 在經(jīng)過(guò) Flow-GRPO 訓(xùn)練后能夠隨著最大限制推理步數(shù)的上升穩(wěn)步提升性能,同時(shí)又不會(huì)大幅提升平均推理步數(shù)——這表示對(duì)于長(zhǎng)難任務(wù)會(huì)增加有效的推理步數(shù)來(lái)提升正確率,而不會(huì)一味地所有任務(wù)都隨著最大輪數(shù)限制而延長(zhǎng)推理步數(shù)。
![]()
結(jié)語(yǔ)
AgentFlow 為智能體訓(xùn)練提供了一種全新的思路:與其追求一個(gè)功能完備的單一大語(yǔ)言模型或「一次性完美」的智能體系統(tǒng),不如讓智能體在系統(tǒng)中自我適應(yīng)與持續(xù)學(xué)習(xí)。通過(guò)將群體智能與「邊做邊學(xué)」的范式相結(jié)合,AgentFlow 使智能體系統(tǒng)能夠在協(xié)同演化中不斷優(yōu)化,從而高效應(yīng)對(duì)復(fù)雜任務(wù)。
盡管從研究探索到實(shí)際應(yīng)用仍有較長(zhǎng)的距離,但這樣的工作讓我們看到:Agentic AI 依然蘊(yùn)藏著巨大的潛力與想象空間。





京公網(wǎng)安備 11011402013531號(hào)