亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

AGI前夜重磅:RL突破模型「認知上限」,真·學習發生了!

IP屬地 中國·北京 新智元 時間:2025-10-22 06:05:19


新智元報道

編輯:KingHZ

UC Berkeley、UW、AI2 等機構聯合團隊最新工作提出:在恰當的訓練范式下,強化學習(RL)不僅能「打磨」已有能力,更能逼出「全新算法」級的推理模式。他們構建了一個專門驗證這一命題的測試框架 DELTA,并觀察到從「零獎勵」到接近100%突破式躍遷的「RL grokking」現象。

在AI研究圈,一個核心爭論是:強化學習(RL)是否能夠賦予模型超越其基礎模型(base model)的推理能力。

懷疑派觀點:早在四月份,清華的黃高團隊[arXiv:2504.13837]指出,盡管經過 RLVR 訓練的模型在較小的采樣值 (k)(例如 (k=1))時能優于其基礎模型,但當采樣數較大時,基礎模型往往能取得相同或更好的 pass@k 表現。

他們通過覆蓋率(coverage)和困惑度(perplexity)分析推斷,模型的推理能力最終受限于基礎模型的支持范圍。

類似地,斯坦福崔藝珍團隊 [arXiv:2507.14843] 從理論上論證了 RLVR 無法突破基礎模型的表征極限。

這種懷疑的直覺在于:

大多數面向推理的強化學習(如 GRPO、PPO 等變體)通過比較同一提示詞(prompt)下多個采樣的獎勵來更新模型。

如果這些采樣中沒有一個成功解決任務(即 pass@K = 0),那么所有樣本的獎勵都是一樣差的,此時梯度將會消失。

所以關鍵的問題在于,當基礎模型(base model)在某類任務上完全無法解答(pass@K=0)時:

RL是否還能突破零梯度瓶頸,真正學到新策略?

來自加州大學伯克利分校(UC Berkeley)與AI2、華盛頓大學等機構的研究團隊,近日給出了一個令人振奮的答案

RL確實能讓模型發現全新的推理模式——但前提是,需要不一樣的訓練方式。

他們的最新工作《RL Grokking Receipe: How Does RL Unlock and Transfer NewAlgorithmsin LLMs?》提出了一個嶄新的測試框架DELTA,專門用來驗證該觀點。

這項研究為「RL是否能突破模型邊界這一爭論,帶來了新的實驗依據。


論文:https://www.arxiv.org/abs/2509.21016

博客:https://rdi.berkeley.edu/blog/rl-grokking-recipe

相關資源清單(持續更新):https://github.com/rdi-berkeley/awesome-RLVR-boundary

從「打磨」到「頓悟」

RL真學到新算法了?

在主流觀點中,RL似乎被困在「隱形的繩子」上 ——

模型的pass@1雖然提高,但在大規模采樣下(如pass@128)性能并未擴展。

這意味著它可能只是重新分配已有策略的概率,而不是創造新的策略。

然而,伯克利團隊在DELTA測試中發現了頓悟式躍遷在多個基礎模型完全失敗的任務族中,RL訓練經歷了一個長時間的「零獎勵平臺期」,隨后突然出現了準確率接近100%的躍遷(phase transition)


研究者將此描述為 「RL grokking」:那不是微調的延展,而是「想通了」的瞬間。

一個「分布外任務學習性」試煉場

很多工作聲稱「新任務」,但其實仍落在模型的知識范圍內。

伯克利團隊這次刻意設計的任務,卻真正做到了脫離模型經驗的外部分布 (Out-of-Distribution):

1. 全新的語言——互聯網上從未出現過。

研究團隊以經典2010 flash游戲Manufactoria為靈感,構建了一個全新的合成編程世界。

該游戲的解法僅以圖片的形式存在,為了適配語言模型,作者引入了一種全新的程序描述語言,僅由兩種原始指令組成:

Puller:從左側讀取并移動符號;

Painter:在右側寫入或標記符號,以此來完成輸入輸出匹配任務。

2. 全新的任務家族——不是重混關卡,而是全新打造。

研究者不是簡單復刻原始的謎題,而是合成了一批全新問題族。這些問題族的難度有簡單有困難,最難的問題使得GPT-5都只有0的正確率。

3. 全新的推理方式——與常規代碼推理完全不同。

傳統代碼學習依賴控制流(if/for/while)和數據結構(stack/list/map)。

而在這個極簡世界里,模型必須發明一種有限狀態機式的推理方式:通過在帶子兩端不斷搬運和標記顏色,完成路由、緩存、比較等操作。

換句話說,模型得在沒有變量的環境中「自造算法」。這是一種人類都要重新思考的推理方式。


如果一個RL模型在這里能學會通用策略,那幾乎可以排除掉「記憶已有代碼模式」的可能,它確實在學習新的算法結構。


破解零梯度詛咒的關鍵

兩階段獎勵調度

伯克利團隊的突破在于,他們重新設計了獎勵函數的結構。

階段一:密集獎勵(dense reward)

在每個測試用例上給部分分數,而非非黑即白的0/1。即使程序只通過了一半測試,也能獲得部分獎勵。這讓模型從「全零」中獲得一絲梯度信號,開始摸索。

問題是: 密集獎勵雖然讓模型「活了」,但它學會的往往是「投機解」——通過簡單模式騙過部分測試。

結果是:平均分高了,完全通過率仍接近0


階段二:切換回二值獎勵(binary reward)

研究者發現,關鍵在于時機的切換。當模型通過密集獎勵階段獲得「半正確」策略后,再切換到「全對才算贏」的二值獎勵,模型突然迎來那一刻——Grokking Phase Transition:從模糊到精確的飛躍。

在約450步后,模型突然學會了任務的核心算法,從此訓練進入「強化收斂」階段,成功率穩定在近100%。那一瞬間,你幾乎能看到模型‘領悟’了規律。

在DELTA的多種任務族中,研究者觀測到高度一致的學習曲線:前幾百步內,獎勵幾乎為零;接著出現一次陡峭的提升;模型學會了任務核心邏輯,性能穩定在近乎100%。


這條曲線如同人類的學習歷程——先是漫長摸索,然后靈光乍現。

頓悟后的技能能否遷移?

團隊進一步設計了BouncingSim測試場景,讓模型預測小球的彈跳軌跡。


這是一個涉及物理規律與組合推理的任務,是一個極具挑戰性的編程任務。

結果顯示:

模型能在訓練后期出現相似的「頓悟曲線」;

對于可組合(Compositional)任務,它能復用學到的子技能;

但面對特殊的動力學規律,模型仍會失效。

這表明,RL 學習到的技能具備有限的遷移能力:它能重組技能,但尚未形成「概念躍遷」的能力。


深層啟示1:RL的兩種模式

該研究總結出RLVR在LLM中的兩種模式:

壓縮模式(Sharpening:重新分配概率,減少輸出方差,提升單次采樣的性能。

發現模式(Discovery:從完全不會(pass@K=0)到穩定解題,實現結構性突破。

而進入發現模式的關鍵在于:獎勵函數設計;探索持續時間;數據混合策略;以及任務的復雜度邊界等等。

深層啟示2:提升「硬核任務」的而非平均分

研究團隊指出,目前RLVR的評測往往在「混合任務池」上取平均,這掩蓋了最關鍵的「硬核任務」突破。

在那些基礎模型完全不會(pass@K=0)的任務上,才最有機會觀察到RL的「創造性突破」。他們建議未來評估指標應顯式報告該子集的表現,因為那才是衡量「模型是否能發現新策略」的真實信號。

為此,伯克利團隊搜集并維護了一個在此方向上的代表性工作:

按「立場—方法—評測—數據/基準—討論」分門別類的列表,便于研究者直接定位到pass@k=0等硬核子集上的最新證據與方法路徑。

項目地址: https://github.com/sunblaze-ucb/awesome-RLVR-boundary

深層啟示3:從編程邁向數學與科學:RL的新邊疆

為何該工作選擇編程作為突破口?

因為代碼任務天然具備:可驗證的單元測試;細粒度、可組合的反饋信號。

這些特性讓RL能夠精確調節獎勵,形成探索路徑。

研究者認為,這一思路完全可擴展到數學與科學推理領域:

通過自動評分(rubric scoring)、逐步檢驗(step checker)或物理仿真器(simulator feedback)

構建細粒度的獎勵系統,從而讓RL引導模型穿越「無梯度」地帶


結語

模型「真正思考」那一刻

這項研究的意義不僅在于性能提升,而在于它展示了LLM真正的學習潛能:

強化學習不只是打磨,而是讓模型學會「如何思考」。

在AGI前夜的諸多技術路徑中,RLVR 可能是那條讓模型從模仿走向洞察的路。

當模型在接近零反饋的黑暗中摸索,直到某一刻突然頓悟——或許這就是AI的「悟道」瞬間。

作者團隊介紹

本項研究來自UC Berkeley宋曉東(Dawn Song)團隊,與AI2、華盛頓大學等機構合作。

第一作者孫一鈾(Yiyou Sun),現為加州大學伯克利分校博士后,2023 年于威斯康星大學麥迪遜分校獲博士學位(導師李一璇Sharon Li),主要研究Out-of-DistributionOOD) 分布外數據的相關問題。

另外在今年5月,Yiyou Sun與宋曉東(Dawn Song)等人還在NeurIPS上發表了論文《OMEGA: Can LLMs Reason Outside the Box in Math?》。

該研究首次系統性地評估了大模型在「跳出盒子」式數學推理中的泛化能力,提出了一個全新的基準——OMEGA。


項目地址: https://github.com/sunblaze-ucb/omega

論文地址: https://arxiv.org/abs/2506.18880

OMEGA聚焦于三種關鍵的「超分布」泛化能力:

Exploratory(探索式):要求模型將已掌握的解題技能應用到同領域中更復雜的實例;

Compositional(組合式):測試模型能否整合不同推理技能解決新的綜合性問題;

Transformative(變革式):考察模型是否能采用創新性、非傳統的策略跨越熟悉范式,真正實現「類人創造性」的遷移推理。

研究團隊基于幾何、數論、代數、組合、邏輯與謎題等多領域模板構建了多層級測試集,對多款頂級大模型(包括Qwen系列)進行系統評估。

結果顯示,當前LLMs在三類泛化任務中仍存在顯著差距,尤其在變革式泛化上幾乎沒有提升。

這一發現揭示出當下模型雖然能「模仿思考」,但在創造性和結構性遷移推理上仍受限于基礎模型的邊界。

論文作者指出,OMEGA不僅提供了一個衡量模型「數學創造力」的新視角,更為未來RL-for-Reasoning(推理強化學習)研究提供了實驗基礎。

參考資料:

https://www.arxiv.org/abs/2509.21016

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

6080国产精品| 欧美华人在线视频| 成人免费毛片高清视频| 日韩在线一卡二卡| 一区二区三区视频| 欧美成人免费视频| 天天综合日日夜夜精品| 久久午夜视频| 精品熟妇无码av免费久久| 一区二区三区日韩视频| 欧美激情一区二区久久久| 精品成人国产在线观看男人呻吟| 欧日韩在线视频| 波多野结衣福利| 亚洲欧美国产不卡| 久久久久久这里只有精品| 精品久久久一区| 久久精品国产在热久久| 精品国产视频在线观看| 男女高潮又爽又黄又无遮挡| 欧美最猛性xxxxx亚洲精品| 欧美人狂配大交3d怪物一区 | www成人在线| 黄色av免费在线播放| 亚洲一区二区三区在线免费观看| 亚洲国产一区二区三区四区| 国产精品色婷婷久久58| 丰满熟妇乱又伦| 性少妇xx生活| 97在线播放视频| 亚洲综合社区网| 国产一区二区日韩| 亚洲国产另类av| 国精产品一区一区三区mba桃花| 亚洲一区欧美在线| 亚洲妇女无套内射精| 日韩欧美一区二区三区四区| 午夜精品蜜臀一区二区三区免费| 4438x成人网最大色成网站| 久久久久久久久蜜桃| 亚洲综合精品在线| 国产激情第一页| 日本一区二区免费高清视频| 国产999精品视频| 亚洲精品成人免费| 亚洲一区二区在线播放相泽| 久草这里只有精品视频| 久久久久久无码午夜精品直播| 国模私拍在线观看| 亚洲熟妇无码一区二区三区导航| 亚洲自拍小视频免费观看| 久久精品国产免费观看 | 国产精品久久久久久久久婷婷| 日韩亚洲欧美中文在线| 欧美无砖专区一中文字| 中文字幕精品一区二区三区精品| 久久一二三区| 日日夜夜狠狠操| av中文字幕免费观看| 蜜臀久久99精品久久久酒店新书| 美女一区视频| 国产精品高清在线观看| 色噜噜亚洲精品中文字幕| 精品1区2区3区| 综合精品久久久| 国产精一区二区三区| 99久久精品无免国产免费| 91日韩中文字幕| 国产传媒免费观看| 伊人久久在线观看| 国产精品推荐精品| 热久久99这里有精品| 亚洲最大在线视频| 91精品国产一区二区人妖| 一区二区三区在线免费视频| 成人18精品视频| 久久国产主播| 国产一区二区在线不卡| 国产精品第二十页| 东方伊人免费在线观看| 久草福利在线观看| 黄色国产精品视频| 亚洲精品在线免费看| 超碰在线观看97| 日韩美女视频免费在线观看| 久久精品成人欧美大片古装| 精品美女一区二区| 欧美在线一区二区| 亚洲高清不卡在线观看| 国产欧美va欧美不卡在线| 国产精品一区在线观看你懂的| 成人乱码一区二区三区| 成人黄色三级视频| 国产午夜福利精品| 精品少妇一区二区三区密爱| 一起草在线视频| 久久久精品视频国产| 日韩 欧美 高清| 91九色国产ts另类人妖| 欧美一区二区三区在线免费观看| 亚洲一区国产精品| 国产精品精品国产| 91精品国产高清久久久久久久久| 最近2019年好看中文字幕视频 | 狠狠色丁香婷婷综合久久片| 色综合久久久久久| 国产高清第一页| 最近中文字幕在线观看视频| 久热这里只有精品6| 黄页网站免费观看| www日韩在线| 亚洲毛片亚洲毛片亚洲毛片| 女尊高h男高潮呻吟| 亚洲麻豆一区二区三区| 天堂av手机在线| 欧美伦理片在线观看| 亚洲欧洲日产国码无码久久99 | 精品福利一区二区三区免费视频| 欧美日韩在线三级| 在线亚洲精品福利网址导航| 天天综合日日夜夜精品| 亚洲成人精品一区二区| 亚洲色图在线播放| 亚洲猫色日本管| 亚洲日本在线天堂| 亚洲男帅同性gay1069| 中文字幕制服丝袜一区二区三区 | 国产免费一区二区三区免费视频| 无码视频在线观看| 日韩熟女一区二区| 精品无码一区二区三区的天堂| 精品免费囯产一区二区三区 | 欧美三级三级三级| 欧美午夜理伦三级在线观看| 欧美在线free| 欧美这里有精品| 欧美日韩国产首页在线观看| 欧美日韩免费不卡视频一区二区三区| 欧美亚洲禁片免费| 欧美精品九九99久久| 制服丝袜亚洲精品中文字幕| 日韩欧美一级二级| 亚洲第一综合天堂另类专| 亚洲国产精品女人久久久| 亚洲激情视频在线播放| 亚洲人成在线观| 伊人久久大香线蕉av一区二区| 中文字幕不卡在线视频极品| 日韩在线观看免费av| 久久av.com| 98精品国产高清在线xxxx天堂| 久久久久这里只有精品| 欧美资源在线观看| 成人黄色短视频在线观看| 1卡2卡3卡精品视频| 久久99精品久久久久久秒播放器| 久久香蕉综合色| 亚洲亚洲精品三区日韩精品在线视频 | 国内精品久久久久久中文字幕 | 97视频在线免费观看| 日本精品视频在线| 91亚洲精品在线| 麻豆精品蜜桃一区二区三区| 在线观看日本一区| 国产乱子伦农村叉叉叉| 亚洲欧洲日本精品| 欧类av怡春院| 国产一二三区精品| 一级黄色av片| 色婷婷av一区二区三区之红樱桃 | 久久影视免费观看| 欧美综合第一页| 91最新国产视频| 免费一区二区三区在在线视频| 亚洲一区bb| 久久免费视频3| 免费观看一区二区三区| 快灬快灬一下爽蜜桃在线观看| 九九热只有精品| 亚洲专区第一页| 日韩国产欧美一区二区三区| 成人免费视频视频| 亚洲欧美激情在线| 欧美亚洲国产一区二区三区| 亚洲精品mp4| 欧美国产日韩一区二区在线观看| 国产精品1区2区在线观看| 国产精品视频免费观看| 在线观看18视频网站| 污片在线免费看| 一道本在线观看| 日韩精品久久久久久久酒店| 午夜久久久久久噜噜噜噜| 精品一区二区日韩| 国产精品毛片大码女人| 色综合天天做天天爱| 精品日韩在线观看| 欧美高清在线观看| 99国内精品久久久久久久软件| 亚洲成人网上| 久久久久久久久久久久91| 麻豆精品免费视频| 欧美黄色一级大片| 日日欢夜夜爽一区| 欧美激情在线一区二区| 在线免费观看成人短视频| 亚洲美女在线视频| 日本久久中文字幕| 日韩精品一区二区三区丰满| 日韩中文字幕组| 韩国三级hd中文字幕| 欧产日产国产69| 日本大胆欧美人术艺术动态| 亚洲国产高清aⅴ视频| 欧洲av在线精品| 自拍偷拍亚洲区| 国产精品三级在线| 2025韩国大尺度电影| 日本55丰满熟妇厨房伦| 久久久无码一区二区三区| 亚洲精品久久久久久无码色欲四季| 成人激情文学综合网| 欧美日韩国产综合新一区| 亚洲人成网站在线播| 成人精品久久久| 久无码久无码av无码| mm131美女视频| 在线观看免费高清视频| 成人性视频网站| 色哟哟一区二区三区| 中文综合在线观看| 91免费看网站| 日韩少妇内射免费播放18禁裸乳| xxxx日本黄色| 午夜精品久久久久久久96蜜桃 | 免费在线观看日韩| 天堂成人国产精品一区| 亚洲日本青草视频在线怡红院 | 欧美 国产 日本| 亚洲欧美va天堂人熟伦| 国产精品国产精品国产| 成人免费毛片片v| 欧美私人免费视频| 国内自拍欧美激情| 杨幂一区欧美专区| 超碰男人的天堂| 国产精品毛片一区视频播| 成人动漫中文字幕| 在线成人免费观看| 5278欧美一区二区三区| 日本精品免费视频| a天堂中文字幕| 黄色一级大片在线免费看国产一| 国产精品国产精品国产专区不蜜| 亚洲成人精品视频| 91在线免费看网站| 午夜dv内射一区二区| 国产无遮挡裸体免费视频| 韩国三级在线一区| 欧美综合天天夜夜久久| 国模精品视频一区二区三区| 中文字幕免费高| 影音先锋制服丝袜| 久久久精品性| 五月天国产精品| 欧美大片免费观看| 综合久久国产| 国产精品久久免费观看| 爽好多水快深点欧美视频| 亚洲va国产va欧美va观看| 久久国产色av| 中文字幕一区二区三区在线乱码| 欧亚乱熟女一区二区在线| 不卡视频免费在线观看| 一区二区视频在线| 久久不射电影网| 不卡中文字幕在线| 美国黄色片视频| 激情欧美一区二区| 欧美二区三区的天堂| 国产欧美在线视频| 狠狠躁狠狠躁视频专区| 国产精华7777777| 中文字幕精品综合| 日韩在线资源网| 91香蕉视频网址| 免费在线一区二区三区| 成人av综合在线| 日韩大陆毛片av| 日本成人三级电影网站| 卡一卡二卡三在线观看| 麻豆一区二区三| 91麻豆精品国产自产在线 | 中文字幕在线播放av| 日韩一区在线播放| 色与欲影视天天看综合网| 又大又硬又爽免费视频| 精品久久免费视频| 国产亚洲欧美日韩在线一区| 中文字幕欧美专区| 91xxx视频| 日本少妇全体裸体洗澡| 久久久不卡影院| 日韩中文字幕欧美| 国产爆乳无码一区二区麻豆| 欧美成人精品欧美一级乱黄| 国产欧美精品区一区二区三区| 精品国产美女在线| 欧美日韩不卡在线视频| 免费看毛片网站| 亚洲欧美日韩综合aⅴ视频| 久久久视频精品| 手机看片一级片| 亚洲国产精品成人久久蜜臀| 日韩欧美精品网址| 91免费高清视频| 在线免费观看成年人视频| 久88久久88久久久| 日韩va亚洲va欧洲va国产| 一区国产精品| 日韩欧美三级视频| 亚洲乱码日产精品bd| 97国产精品人人爽人人做| 爱爱爱爱免费视频| 亚洲色偷精品一区二区三区| 欧美一区永久视频免费观看| 蜜桃传媒视频麻豆第一区免费观看| 激情高潮到大叫狂喷水| 95精品视频在线| 九九久久精品一区| 国产三级日本三级在线播放| 后进极品白嫩翘臀在线视频| 欧美电影一区二区| 日韩中文字幕一区二区| 日韩欧美亚洲一区二区三区| 亚洲精品视频免费观看| 国产精品人成电影在线观看| 日批在线观看视频| 懂色av一区二区三区蜜臀| 深夜福利国产精品| 黄色a级片免费| 欧美在线 | 亚洲| 精品国产一区二区国模嫣然| 偷拍盗摄高潮叫床对白清晰| 欧美在线视频精品| 日本久久电影网| 国产尤物91| 日本少妇全体裸体洗澡| 亚洲国产精品视频| 亚洲综合小说区| 国产成人综合在线视频| 自拍偷拍欧美精品| 国产综合久久久久久| 欧美人妻一区二区三区| 国产亚洲短视频| 日韩免费观看在线观看| 久久人人妻人人人人妻性色av| 国产91在线看| 欧美激情中文网| 熟妇高潮一区二区| 99久久精品国产导航| 97视频在线观看网址| 青青草视频播放| 久久久精品国产免费观看同学| 欧美亚洲国产视频小说| 欧美 日本 国产| 国产亚洲成av人在线观看导航| 日本精品免费观看| 成熟人妻av无码专区| 国产精品久久久久久户外露出| 国产精品爽爽爽爽爽爽在线观看| 毛片aaaaaa| 亚洲精品一二三| 国产精品v欧美精品v日韩| www.99re7.com| 色综合夜色一区| 亚洲一区二区三区精品在线观看| 国产又色又爽又黄又免费| 精品国产一区二区三区忘忧草| 国产精品久久中文字幕| 日本美女一区二区三区| 欧美成aaa人片免费看| 亚洲麻豆一区二区三区| 国产欧美一区二区精品婷婷| 91精品久久久久久久| 久草视频在线资源站| 色丁香久综合在线久综合在线观看| 天天综合色天天综合色hd| 国产精品国产av| 日韩精品免费观看| 午夜免费一区二区| 懂色av一区二区三区免费观看 | 国产午夜精品一区二区三区嫩草| 国产欧美亚洲精品| 日韩欧美三级在线观看| 91精品国产综合久久精品| 日本a视频在线观看| 蜜桃av一区二区在线观看| 久久99热精品| 国产sm调教视频| 午夜在线成人av| 一本久久a久久精品vr综合| 日本黄色不卡视频| 久久国产精品久久精品| 国产免费看av| 午夜国产精品一区| wwwjizzjizzcom| 国内精品国产三级国产a久久| 4438全国亚洲精品在线观看视频| 九九热最新地址|