亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

從「會說」邁向「會做」,LLM下半場:Agentic強化學習范式綜述

IP屬地 中國·北京 編輯:柳晴雪 機器之心Pro 時間:2025-09-08 20:13:59



本文第一作者為新加坡國立大學博士生 張桂彬、牛津大學研究員 耿鶴嘉、帝國理工學院博士生 于曉航;通訊作者為上海人工智能實驗室青年領軍科學家 白磊 和 牛津大學博士后 / 上海人工智能實驗室星啟研究員 尹榛菲

過去幾年,大語言模型(LLM)的訓練大多依賴于基于人類或數據偏好的強化學習(Preference-based Reinforcement Fine-tuning, PBRFT):輸入提示、輸出文本、獲得一個偏好分數。這一范式催生了 GPT-4、Llama-3 等成功的早期大模型,但局限也日益明顯:缺乏長期規劃、環境交互與持續學習能力

為了突破這樣的瓶頸,自 2025 年初 DeepSeek R1 及其背后的 GRPO 范式獲得空前熱度以后,一種新的訓練范式 ——Agentic Reinforcement Learning(Agentic RL),愈發到社區關注。它試圖讓 LLM 從「被動對齊」進化為「主動決策」的智能體,在動態環境中規劃、行動、學習。



論文標題:The Landscape of Agentic Reinforcement Learning for LLMs: A SurveyarXiv 地址:https://arxiv.org/pdf/2509.02547GitHub 地址:https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers

為了捋清這一新興領域,一篇長達 100 頁、由牛津大學、新加坡國立大學、伊利諾伊大學厄巴納-香檳分校,倫敦大學學院、帝國理工學院、上海人工智能實驗室等 16 家海內外頂級研究機構聯合完成的最新綜述論文,全面系統地梳理了作用于 LLM 的 Agentic RL 這一方向,覆蓋 500 + 相關研究,構建了 Agentic RL 的理論框架、演化脈絡與資源版圖,并討論了可信性、擴展性和復雜環境等未來挑戰。



范式遷移:從 PBRFT 到 Agentic RL



從 LLM-RL 到 Agentic RL 范式遷移概覽

該綜述首先給出范式遷移的形式化定義:早期 RL 研究多基于 PBRFT 范式,可被視為退化的單步 MDP(單 prompt、一次性文本輸出、立即終止),而 Agentic RL 則將 LLM 置于部分可觀測馬爾可夫決策過程(POMDP)下進行多步交互:





一句話:PBRFT 讓模型更會一次地說,Agentic RL 讓模型更會長程地做



強化學習優化算法層面,當前實踐形成了一條從通用策略梯度到偏好優化的譜系,Table 2 匯總比較了三類算法家族及其代表方法,便于讀者快速對照「訓練用什么算法」與「對齊目標/信號形態」 的對應關系。



六大核心能力:智能體的「內功」

要讓 LLM 真正成為智能體,僅有動作空間還不夠,它必須發展出一套完整的能力體系。該綜述將其總結為六大核心模塊,并對每個模塊提出了前瞻性討論:

1.規劃(Planning):為復雜任務設定子目標與多步行動序列。通過外部引導(外部打分生成獎勵)或內部驅動(自主規劃并修正)實現。

2.工具使用(Tool Use):調用外部工具完成任務。從 ReAct 等靜態提示模仿演進到 Tool-integrated RL (TIR),讓智能體學會自主選擇組合工具。



Agentic Tool Using 演化路徑

3.記憶(Memory):保持上下文連貫并積累知識,包括基于外部數據庫檢索記憶、Token 級別記憶和結構化記憶。其中,值得關注的工作包括來自字節跳動的 MemAgent 和麻省理工大學的 MEM1,他們都通過強化學習讓 LLM Agent 擁有自行管理記憶窗口的能力。



4.自我改進(Self-Improvement)同樣是目前 Agent 最熱門的發展方向。該綜述高屋建瓴地將目前 Agent 自我提升的能力劃分為以下三類:

基于語言強化學習,即類似于 Reflexion、Self-Critic 等風格的自我糾正;通過強化學習訓練內化自提升能力,譬如來自 MIT-IBM Watson AI Lab 的 Satori 便通過強化學習內化 Agent 在測試階段自我糾正的能力;類似的工作還有來自上海 AI Lab 的 TTRL,meta 的 SWEET-RL 等等;通過迭代自訓練,譬如來自清華的 Absolute Zero、來自斯坦福的 Sirius 等等。

5.推理(Reasoning):解決復雜問題的推導能力,分為快速直覺推理(憑經驗直覺迅速答題)和慢速縝密推理(多步演繹得出嚴謹結論)。

6.感知(Perception):理解多模態輸入的信息獲取能力。模型從被動識別走向主動感知,可通過定位驅動(將推理錨定具體對象)、工具驅動(借助外部工具輔助)和生成驅動(生成圖像草圖輔助推理)等方式提升感知效果。



智能體與環境交互閉環示意

借助強化學習,這些能力由人工啟發式轉變為可學習的策略,規劃不再依賴硬編碼流程、工具使用也可由模型自主決定、端到端訓練。



Agentic RL 6 大核心能力板塊

任務落地與演化路徑



不同任務領域的 Agent RL 進化樹

Agentic RL 也在橫向拓展應用邊界,涌現出多種智能體雛形:

搜索與研究:優化多輪檢索與證據整合策略,學會何時繼續搜索、何時下結論;



代碼:將編譯錯誤與單元測試結果用作獎勵,推動智能體能力從一次性代碼生成進化到自動調試以及自動化軟件工程流程;



數學:在非形式化 (informal) 推理中,利用正確率或中間過程獎勵來塑造推理軌跡;在形式化 (formal) 推理中,交互式定理證明器 (ITPs) 提供可驗證的二值信號,使智能體能在嚴格規則下探索證明路徑;



圖形界面 (GUI):在網頁和桌面環境中讓智能體學習點擊、輸入、導航等操作,從靜態腳本模仿走向交互式操作,提升對真實應用的適配性;



視覺與具身:融合視覺感知與決策規劃,實現「看-思-做」的連續決策閉環,增強智能體在多模態問答、導航與機器人操作等任務中的表現;多智能體系統:通過獎勵設計促使多個模型在競爭或合作中逐漸涌現溝通與分工能力。



其他探索:RL 也被應用于數據分析、科學發現等場景,顯示出 Agentic RL 在更多任務中的潛在適應性。

總體來看,Agentic RL 已在多個場景初步落地,并正從單一任務逐漸邁向更復雜、更貼近現實的任務生態。

環境與框架

Agentic RL 的發展離不開可復用的實驗環境與工具鏈。現有工作已涵蓋網頁、GUI、代碼、游戲等多種開源平臺,并配套了相應的評測基準與框架,為研究者提供了開展實驗和對比的基礎設施。





此外,這份綜述還整合了 500+ 篇相關研究,并在 GitHub 上開源了 Awesome-AgenticLLM-RL-Papers,將論文、環境、基準與框架一站式匯總,為后續研究提供了全景式的參考地圖。

挑戰與前瞻

盡管 Agentic RL 已展現出廣闊潛力,但要真正走向穩健和實用,還存在若干核心挑戰:

可信性與安全性:相比傳統 LLM,Agentic RL 智能體集成了規劃、工具調用和記憶等能力,攻擊面顯著擴大;同時,RL 的獎勵驅動機制也可能導致 reward hacking,使不安全行為被強化,帶來更持久的風險。Scale Up 智能體訓練:大規模 Agentic RL 訓練面臨算力、數據和算法效率的瓶頸。當前 RL 方法成本高昂,難以在長時程決策或復雜環境中穩定擴展,需要發展更高效的優化范式。Scale Up 智能體環境:現有的交互環境難以覆蓋真實世界的復雜性。未來應探索環境與智能體的「協同進化」,例如通過自動化獎勵設計、課程生成和環境自適應優化,讓環境在訓練中發揮「主動教學」的作用,而不僅僅作為靜態測試平臺。

這些挑戰構成了 Agentic RL 進一步發展的關鍵門檻,也為未來研究提供了明確方向。

結語

這篇綜述系統化梳理了 Agentic RL 的理論框架、能力維度、任務應用與資源生態,確立了其作為 LLM 演進的重要訓練范式。

綜述強調:單步對齊已難以支撐復雜任務,LLM 訓練范式由此進入 Agentic RL 的下半場,而強化學習是將規劃、工具使用、記憶、推理等核心能力從啟發式功能轉化為穩健智能行為的關鍵機制。

未來,隨著可信性、可擴展性和復雜環境等挑戰的逐步突破,LLM 將有望真正從 「會說」邁向「會做」,成長為更通用、更自主的智能體。

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

在线视频不卡一区二区| 欧美日韩一区综合| 日日橹狠狠爱欧美超碰| 李丽珍裸体午夜理伦片| 免费看黄网站在线观看| 综合av第一页| 久久精品成人动漫| 女人被男人躁得好爽免费视频| 亚洲一二三四五六区| 国产精品香蕉一区二区三区| 在线成人免费视频| 久久艳妇乳肉豪妇荡乳av| 91久久免费视频| 久久五月激情| 亚洲欧美综合图区| 相泽南亚洲一区二区在线播放 | 91在线无精精品白丝| av一区二区三区在线| 中文字幕欧美亚洲| 性欧美videossex精品| 日本三级亚洲精品| 9191成人精品久久| 日韩免费中文专区| 国产美女久久久久久| 国产精品理论在线观看| 国产精品一香蕉国产线看观看| 少妇一级淫片免费放播放| 成人久久18免费网站麻豆| 久久综合伊人77777蜜臀| 牛夜精品久久久久久久| 日韩精品一二三区| 中文字幕久热精品在线视频| 伊人网在线免费| 香蕉视频免费看| 日韩成人激情在线| 国产成人精品视频ⅴa片软件竹菊| 久久精品官网| 夜夜嗨av一区二区三区免费区| av亚洲天堂网| 日韩午夜在线观看| 日韩成人av免费| 日韩黄色小视频| 91精品国产全国免费观看| aa成人免费视频| 九九热精品免费视频| 欧美在线看片a免费观看| 久久国产精品99久久久久久丝袜| 免费看毛片网站| 亚洲成人1234| 初高中福利视频网站| 成人欧美一区二区三区白人| 国产日韩欧美91| 999精品在线视频| 91黄视频在线观看| 国模无码视频一区二区三区| 成人av综合一区| 国产亚洲精品自在久久| 国产丰满美女做爰| 久久久亚洲欧洲日产国码aⅴ| 黄色录像一级片| 91久久免费观看| www.日本xxxx| 日韩免费av片| 亚洲香蕉在线观看| 日本天堂中文字幕| 亚洲精品wwww| 免费啪视频在线观看| 色哟哟欧美精品| 免费看国产曰批40分钟| 国产91精品欧美| 久热这里只精品99re8久| 日产国产高清一区二区三区| 国产精品一区av| 性生活三级视频| 91成人在线播放| 国产肥老妇视频| 国产精品久久国产精品99gif| 亚洲大片免费观看| 欧美日韩成人在线视频| 久久久久久久久黄色| 亚洲香蕉伊综合在人在线视看| 91精品国产三级| 午夜精品久久久久久久99樱桃| 午夜一级免费视频| 欧美成人午夜剧场免费观看| 综合视频在线观看| 久久男人中文字幕资源站| 亚洲人成无码www久久久| 久久婷婷国产综合国色天香| 午夜精品www| 成人小说亚洲一区二区三区 | 18禁免费无码无遮挡不卡网站| 日韩精品视频网| 91精品国产综合久久福利软件| 欧美黄色高清视频| 欧美高清在线播放| 欧美久久久久久久久久久| 亚洲第一精品夜夜躁人人爽| 国产视频91在线| 国产欧美va欧美va香蕉在线| 国产成人毛毛毛片| 日韩欧美一区二区视频在线播放 | 九色91在线视频| 欧美激情一区二区三区四区 | 成人久久视频在线观看| 欧美性猛交久久久乱大交小说| 亚洲小说欧美激情另类| 国产大片免费看| 亚洲tv在线观看| 国产精品久久久久7777按摩| 国产理论在线播放| 亚洲品质视频自拍网| 亚洲精品国产无码| 欧美日韩另类丝袜其他| 色老头久久综合| 黄色a级在线观看| 精品国产户外野外| 艳妇乳肉豪妇荡乳av无码福利| 成人欧美一区二区三区黑人| 亚洲三级久久久| 91精品一区二区三区蜜桃| 久久久999国产| 韩国v欧美v日本v亚洲v| 精品久久久99| 日本aⅴ大伊香蕉精品视频| 91一区二区在线| 久久久久无码精品国产sm果冻| 免费99精品国产自在在线| 91毛片在线观看| 亚洲国产av一区| 欧美制服第一页| 亚洲黄色免费网站| 欧美黄片一区二区三区| 69174成人网| 亚洲3atv精品一区二区三区| 青青国产在线视频| 凹凸日日摸日日碰夜夜爽1| 亚洲精品电影在线观看| 日韩av网站在线观看| 啊啊啊国产视频| 日韩欧美亚洲天堂| 久久精品网站免费观看| 丰满人妻一区二区三区免费视频棣| 国产人妖伪娘一区91| 亚洲第一区中文字幕| 26uuu久久综合| 日本熟妇乱子伦xxxx| 手机av在线网站| 成人毛片100部免费看| 91最新国产视频| 亚洲国产第一页| 国产精品青草久久| 后进极品白嫩翘臀在线视频| 国产一区欧美一区| 亚洲欧美精品久久| 国产福利一区视频| 精品国产一区二区三区四区vr| 最新国产精品拍自在线播放| 天天免费综合色| 成年人午夜久久久| 老熟妇高潮一区二区高清视频| 免费成人深夜天涯网站| 精品中文字幕av| 欧美日韩亚洲在线| 91精品久久久久久久久久| 久久久国产视频| 欧美黄色小视频| 欧美日韩亚洲综合在线| 久久久久国产成人精品亚洲午夜 | 舔着乳尖日韩一区| 久久久久久9999| 日产国产高清一区二区三区| 伊人网站在线观看| 五月天激情国产综合婷婷婷| 欧美黄色一级生活片| 成人h动漫精品一区| 亚洲免费黄色网| 久久6免费高清热精品| 亚洲国产天堂久久综合| 欧美性感一类影片在线播放| 亚洲欧美色图小说| 97久久精品人人爽人人爽蜜臀| 精品国产无码一区二区三区| 韩国av中文字幕| 久久综合激情网| 久久久久久久国产视频| 杨钰莹一级淫片aaaaaa播放| 1024手机在线观看你懂的| 人人妻人人澡人人爽人人精品| youjizz.com日本| 特黄特黄一级片| 国产美女视频免费看| www黄色av| 国产一级做a爰片久久毛片男| 性刺激综合网| 国产女人18毛片| 精品欧美一区免费观看α√| 亚洲精品第二页| 日韩精品在线观看av| 人妻少妇被粗大爽9797pw| 久久综合亚洲精品| 玖玖精品在线视频| 精选一区二区三区四区五区| 国产欧美日韩亚洲| 蜜桃狠狠色伊人亚洲综合网站| 亚洲欧美国产一区二区| 久久亚洲中文字幕无码| 亚洲av无码成人精品区| 日日摸天天爽天天爽视频| 美国av在线播放| 91视频成人免费| 亚洲国产欧美不卡在线观看| 日韩电影免费观看在| 99re在线播放| 久久日韩精品| 日本最新一区二区三区视频观看| 欧美资源一区| 国产乱人伦精品一区二区三区| 久久激情一区| 国产综合在线播放| 欧美超碰在线观看| 亚洲av无码一区二区三区dv| 97超碰人人草| 日本va欧美va瓶| 久久精品国产精品亚洲精品| www.激情成人| 亚洲丶国产丶欧美一区二区三区| 一区二区三区加勒比av| 在线观看日韩电影| 日韩免费看网站| 久久精品99国产精品酒店日本| 国产一区二区三区视频免费| 欧美精品激情在线| 国产精品欧美日韩久久| 久久青青草原一区二区| 黄www在线观看| 亚洲AV无码成人精品区明星换面| 国产精品1234区| 免费观看国产精品| 久久精品一区蜜桃臀影院| 亚洲青青青在线视频| 欧美精三区欧美精三区| 日韩av网站电影| 国产97在线|亚洲| 日韩欧美一区二区在线观看| 色悠悠久久综合网| 久久中文字幕在线观看| 日本美女一区二区三区视频| 国产精品久久久久久久久动漫| 欧美日韩国产小视频| 亚洲免费精彩视频| 亚洲专区在线视频| 成人在线观看黄| 国产一级二级三级| 激情六月婷婷久久| 在线观看国产日韩| 91av福利视频| www.九色.com| 久久久久香蕉视频| 成人激情小说乱人伦| 欧美日韩二区三区| 国产精品www| 日韩免费高清在线观看| 能在线观看的av| 日韩欧美亚洲一区二区三区| 成人黄色a**站在线观看| 91精品在线一区二区| 国产精品男人爽免费视频1| 4444亚洲人成无码网在线观看| 免费黄色在线视频| 日本不卡的三区四区五区| 最新国产精品久久精品| 亚洲欧美日韩中文在线制服| 日本一区二区三区精品视频| 四虎成人免费影院| 国内精品伊人久久久久影院对白| 欧美午夜精品久久久久久超碰| 欧美精品国产精品日韩精品| 久久久久久久激情| 国产精品久久久久毛片| 懂色av影视一区二区三区| 国产精品成人va在线观看| 特级西西444www| 高h放荡受浪受bl| 欧洲精品在线观看| 91九色视频在线| 中文字幕伦理片| 国产二区国产一区在线观看| 日日狠狠久久偷偷四色综合免费| 可以在线看的av网站| 国产免费久久久| 欧美精品精品一区| 亚洲一卡二卡| 五月婷婷中文字幕| 疯狂做受xxxx高潮欧美日本| 国产午夜精品在线| 在线观看精品国产| 在线观看视频一区| 五月天亚洲综合情| 伊人免费在线观看| 欧美久久婷婷综合色| 人妻互换免费中文字幕| 亚洲欧美日韩成人在线| 亚洲午夜av电影| 曰本三级日本三级日本三级| 久久久综合视频| 亚洲综合在线小说| www.国产com| 亚洲国产中文字幕在线观看| 丝袜老师办公室里做好紧好爽| 久久福利资源站| 久久91亚洲精品中文字幕| 青青草视频播放| 久久久久久日产精品| 久久人人97超碰人人澡爱香蕉| av大全在线观看| 精品欧美一区二区三区精品久久 | 国产欧美日韩亚州综合| 亚洲综合在线小说| 国产精选久久久| 国产一区二区三区免费视频| 国产精品69页| 亚洲色大成网站www久久九九| 五月天亚洲综合| 久久久久综合| 韩国一区二区电影| 美日韩一二三区| 中文字幕日韩欧美| 天天色影综合网| 91精品国产综合久久香蕉麻豆 | 91在线播放观看| 亚洲欧美日本另类| xxxxxx黄色| 欧美精品视频www在线观看| 日韩va在线观看| 日韩欧美国产激情| 人人妻人人澡人人爽欧美一区| 国产成人av电影在线观看| 国产剧情久久久久久| 97人妻精品一区二区三区| 欧美一级视频在线观看| 伦av综合一区| 欧美一级电影免费在线观看| 国产wwwwwww| 97avcom| www.av视频在线观看| 亚洲国产一区二区三区在线观看| 亚洲成人日韩在线| 91福利国产精品| 人妻大战黑人白浆狂泄| 欧美调教femdomvk| 精品一区二区在线观看视频| 欧美这里有精品| xxxxx在线观看| 一区二区三区黄色| 伊人22222| 欧美亚洲另类激情另类| 在线播放国产一区| 91嫩草国产在线观看| 国产一区二区三区四区在线观看| 国产福利久久精品| 99在线精品免费| 91免费视频网站在线观看| 在线观看精品一区| 精品无码人妻一区二区三| 日韩av电影手机在线观看| 日韩一卡二卡在线| 天天干天天色天天爽| 国产日产欧产精品推荐色| 中文字幕avav| 国产一区二区三区久久精品| 懂色av中文字幕| 99三级在线| 亚洲免费观看高清完整版在线 | 久久久久久久久蜜桃| 国产一精品一aⅴ一免费| 在线视频一区二区| 人人爽香蕉精品| 国产日韩亚洲欧美在线| 一区二区三区丝袜| avtt香蕉久久| 国产成人精品久久二区二区| 久久精品久久精品久久| 国产精品久久国产精品| 精品国产福利视频| 亚洲国产成人精品综合99| 亚洲va电影大全| 中文字幕精品综合| 亚洲视频重口味| 国产精品一区二区三区不卡| 欧美激情一区二区三区四区| 国产在线综合视频| 国产欧美在线播放| 一区二区三区波多野结衣在线观看| 免费成人美女女在线观看| 国产精品乱码视频| 精品污污网站免费看| 中文无码精品一区二区三区| 蜜桃网站在线观看| 日韩精品亚洲元码| 国产真实乱子伦精品视频| 欧美做受高潮中文字幕| 国产在线视频欧美| 亚洲大尺度视频在线观看| 欧美成人一区二区三区高清| 欧美日韩精品免费在线观看视频| 91国偷自产一区二区开放时间 | 亚洲妇女无套内射精| 亚洲人永久免费| 蜜臀av一区二区三区|