亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

AGI前夜重磅:RL突破模型“認知上限”,真·學習發(fā)生了

IP屬地 中國·北京 編輯:劉敏 新智元 時間:2025-10-22 08:08:33

新智元報道

編輯:KingHZ

UC Berkeley、UW、AI2 等機構聯(lián)合團隊最新工作提出:在恰當?shù)挠柧毞妒较拢瑥娀瘜W習(RL)不僅能「打磨」已有能力,更能逼出「全新算法」級的推理模式。他們構建了一個專門驗證這一命題的測試框架 DELTA,并觀察到從「零獎勵」到接近100%突破式躍遷的「RL grokking」現(xiàn)象。

在AI研究圈,一個核心爭論是:強化學習(RL)是否能夠賦予模型超越其基礎模型(base model)的推理能力。

懷疑派觀點:早在四月份,清華的黃高團隊[arXiv:2504.13837]指出,盡管經(jīng)過 RLVR 訓練的模型在較小的采樣值 (k)(例如 (k=1))時能優(yōu)于其基礎模型,但當采樣數(shù)較大時,基礎模型往往能取得相同或更好的 pass@k 表現(xiàn)。

他們通過覆蓋率(coverage)和困惑度(perplexity)分析推斷,模型的推理能力最終受限于基礎模型的支持范圍。

類似地,斯坦福崔藝珍團隊 [arXiv:2507.14843] 從理論上論證了 RLVR 無法突破基礎模型的表征極限。

這種懷疑的直覺在于:

大多數(shù)面向推理的強化學習(如 GRPO、PPO 等變體)通過比較同一提示詞(prompt)下多個采樣的獎勵來更新模型。

如果這些采樣中沒有一個成功解決任務(即 pass@K = 0),那么所有樣本的獎勵都是一樣差的,此時梯度將會消失。

所以關鍵的問題在于,當基礎模型(base model)在某類任務上完全無法解答(pass@K=0)時:

RL是否還能突破零梯度瓶頸,真正學到新策略?

來自加州大學伯克利分校(UC Berkeley)與AI2、華盛頓大學等機構的研究團隊,近日給出了一個令人振奮的答案:

RL確實能讓模型發(fā)現(xiàn)全新的推理模式——但前提是,需要不一樣的訓練方式。

他們的最新工作《RL Grokking Receipe: How Does RL Unlock and Transfer New Algorithms in LLMs?》提出了一個嶄新的測試框架 DELTA,專門用來驗證該觀點。

這項研究為「RL是否能突破模型邊界這一爭論,帶來了新的實驗依據(jù)。

論文:https://www.arxiv.org/abs/2509.21016

博客:https://rdi.berkeley.edu/blog/rl-grokking-recipe

相關資源清單(持續(xù)更新):https://github.com/rdi-berkeley/awesome-RLVR-boundary

從「打磨」到「頓悟」

RL真學到新算法了?

在主流觀點中,RL似乎被困在「隱形的繩子」上 ——

模型的pass@1雖然提高,但在大規(guī)模采樣下(如pass@128)性能并未擴展。

這意味著它可能只是重新分配已有策略的概率,而不是創(chuàng)造新的策略。

然而,伯克利團隊在 DELTA 測試中發(fā)現(xiàn)了頓悟式躍遷: 在多個基礎模型完全失敗的任務族中,RL訓練經(jīng)歷了一個長時間的「零獎勵平臺期」,隨后突然出現(xiàn)了準確率接近100%的躍遷 (phase transition)

研究者將此描述為 「RL grokking」:那不是微調(diào)的延展,而是「想通了」的瞬間。

一個「分布外任務學習性」試煉場

很多工作聲稱「新任務」,但其實仍落在模型的知識范圍內(nèi)。

伯克利團隊這次刻意設計的任務,卻真正做到了脫離模型經(jīng)驗的外部分布 (Out-of-Distribution):

1. 全新的語言——互聯(lián)網(wǎng)上從未出現(xiàn)過。

研究團隊以經(jīng)典2010 flash游戲Manufactoria為靈感,構建了一個全新的合成編程世界。

該游戲的解法僅以圖片的形式存在,為了適配語言模型,作者引入了一種全新的程序描述語言,僅由兩種原始指令組成:

Puller:從左側讀取并移動符號;

Painter:在右側寫入或標記符號,以此來完成輸入輸出匹配任務。

2. 全新的任務家族——不是重混關卡,而是全新打造。

研究者不是簡單復刻原始的謎題,而是合成了一批全新問題族。這些問題族的難度有簡單有困難,最難的問題使得GPT-5都只有0的正確率。

3. 全新的推理方式——與常規(guī)代碼推理完全不同。

傳統(tǒng)代碼學習依賴控制流(if/for/while)和數(shù)據(jù)結構(stack/list/map)。

而在這個極簡世界里,模型必須發(fā)明一種有限狀態(tài)機式的推理方式:通過在帶子兩端不斷搬運和標記顏色,完成路由、緩存、比較等操作。

換句話說,模型得在沒有變量的環(huán)境中「自造算法」。這是一種人類都要重新思考的推理方式。

如果一個RL模型在這里能學會通用策略,那幾乎可以排除掉「記憶已有代碼模式」的可能,它確實在學習新的算法結構。

破解零梯度詛咒的關鍵

兩階段獎勵調(diào)度

伯克利團隊的突破在于,他們重新設計了獎勵函數(shù)的結構。

階段一:密集獎勵(dense reward)

在每個測試用例上給部分分數(shù),而非非黑即白的0/1。即使程序只通過了一半測試,也能獲得部分獎勵。這讓模型從「全零」中獲得一絲梯度信號,開始摸索。

問題是: 密集獎勵雖然讓模型「活了」,但它學會的往往是「投機解」——通過簡單模式騙過部分測試。

結果是:平均分高了,完全通過率仍接近0

階段二:切換回二值獎勵(binary reward)

研究者發(fā)現(xiàn),關鍵在于時機的切換。當模型通過密集獎勵階段獲得「半正確」策略后,再切換到「全對才算贏」的二值獎勵,模型突然迎來那一刻——Grokking Phase Transition:從模糊到精確的飛躍。

在約450步后,模型突然學會了任務的核心算法,從此訓練進入「強化收斂」階段,成功率穩(wěn)定在近100%。那一瞬間,你幾乎能看到模型‘領悟’了規(guī)律。

在DELTA的多種任務族中,研究者觀測到高度一致的學習曲線:前幾百步內(nèi),獎勵幾乎為零;接著出現(xiàn)一次陡峭的提升;模型學會了任務核心邏輯,性能穩(wěn)定在近乎100%。

這條曲線如同人類的學習歷程——先是漫長摸索,然后靈光乍現(xiàn)。

頓悟后的技能能否遷移?

團隊進一步設計了 BouncingSim 測試場景,讓模型預測小球的彈跳軌跡。

這是一個涉及物理規(guī)律與組合推理的任務,是一個極具挑戰(zhàn)性的編程任務。

結果顯示:

模型能在訓練后期出現(xiàn)相似的「頓悟曲線」;

對于可組合(Compositional)任務,它能復用學到的子技能;

但面對特殊的動力學規(guī)律,模型仍會失效。

這表明,RL 學習到的技能具備有限的遷移能力:它能重組技能,但尚未形成「概念躍遷」的能力。

深層啟示1:RL的兩種模式

該研究總結出RLVR在LLM中的兩種模式:

壓縮模式(Sharpening):重新分配概率,減少輸出方差,提升單次采樣的性能。

發(fā)現(xiàn)模式(Discovery):從完全不會(pass@K=0)到穩(wěn)定解題,實現(xiàn)結構性突破。

而進入發(fā)現(xiàn)模式的關鍵在于:獎勵函數(shù)設計;探索持續(xù)時間;數(shù)據(jù)混合策略;以及任務的復雜度邊界等等。

深層啟示2:提升「硬核任務」的而非平均分

研究團隊指出,目前RLVR的評測往往在「混合任務池」上取平均,這掩蓋了最關鍵的「硬核任務」突破。

在那些基礎模型完全不會(pass@K=0)的任務上,才最有機會觀察到RL的「創(chuàng)造性突破」。他們建議未來評估指標應顯式報告該子集的表現(xiàn),因為那才是衡量「模型是否能發(fā)現(xiàn)新策略」的真實信號。

為此,伯克利團隊搜集并維護了一個在此方向上的代表性工作:

按「立場—方法—評測—數(shù)據(jù)/基準—討論」分門別類的列表,便于研究者直接定位到 pass@k=0 等硬核子集上的最新證據(jù)與方法路徑。

項目地址: https://github.com/sunblaze-ucb/awesome-RLVR-boundary

深層啟示3:從編程邁向數(shù)學與科學:RL的新邊疆

為何該工作選擇編程作為突破口?

因為代碼任務天然具備:可驗證的單元測試;細粒度、可組合的反饋信號。

這些特性讓RL能夠精確調(diào)節(jié)獎勵,形成探索路徑。

研究者認為,這一思路完全可擴展到數(shù)學與科學推理領域:

通過自動評分(rubric scoring)、逐步檢驗(step checker)或物理仿真器(simulator feedback)

構建細粒度的獎勵系統(tǒng),從而讓RL引導模型穿越「無梯度」地帶

結語

模型「真正思考」那一刻

這項研究的意義不僅在于性能提升,而在于它展示了LLM真正的學習潛能:

強化學習不只是打磨,而是讓模型學會「如何思考」。

在AGI前夜的諸多技術路徑中,RLVR 可能是那條讓模型從模仿走向洞察的路。

當模型在接近零反饋的黑暗中摸索,直到某一刻突然頓悟——或許這就是AI的「悟道」瞬間。

免責聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

全站最新
欧美在线视频一二三| 91九色单男在线观看| 成人av在线一区二区三区| 成人黄色一区二区| 一区二区欧美日韩视频| 视频一区免费在线观看| 另类小说第一页| 久久亚洲国产成人| 不卡视频一二三| 四虎国产精品成人免费入口| 国产日韩中文字幕| 天天亚洲美女在线视频| 色老头在线视频| 91免费国产精品| 亚洲人午夜精品| 国产成人亚洲综合a∨婷婷图片| 亚洲精品乱码久久久久久蜜桃欧美| 97视频在线看| 中文字幕一区二区三区精华液| 青草影院在线观看| 色一情一乱一伦一区二区三欧美 | 免费观看国产视频在线| 亚洲精品日韩久久久| 久久成人综合网| 无码h肉动漫在线观看| 亚洲综合日韩中文字幕v在线| 日韩欧美亚洲成人| www五月婷婷| 在线黄色免费看| 日本欧美黄网站| 亚洲妇女屁股眼交7| 成人免费一级片| av黄色在线网站| 国产69精品久久久久99| 椎名由奈av一区二区三区| 日本视频在线观看免费| 激情小视频网站| 欧美激情视频一区二区三区不卡| 成人免费在线视频观看| 一级黄色av片| 伊人影院综合在线| 国产精品色悠悠| 欧美日韩一区二区不卡| 日本不卡中文字幕| 精品人妻一区二区三区蜜桃视频| 久久精品中文字幕一区二区三区| 亚洲成人精品视频在线观看| 国产精品系列在线观看| 国产成人自拍网站| 欧美 亚洲 视频| 久久97久久97精品免视看| 亚洲人吸女人奶水| 国产xxxx在线观看| 逼特逼视频在线观看| 国产精品视频福利| 亚洲激情国产精品| 久久综合色8888| 欧美一区二区三区网站| 亚洲自偷自拍熟女另类| 国产精品久久久久久久一区探花| 欧美日韩色综合| 国产精品一区二区在线观看不卡| 中文字幕电影av| 性欧美大战久久久久久久| 91成人性视频| 欧美日韩高清一区二区不卡| 国产自产高清不卡| 国产精品成人av久久| 欧洲av无码放荡人妇网站| 国产精品成人播放| 日韩欧美国产综合一区 | www.亚洲一区二区| 欧美人成在线视频| 色狠狠av一区二区三区| 久久精品久久精品| 国产在线观看99| 高清一区二区视频| 成人性色av| 中文字幕亚洲欧美日韩2019| 亚洲黄一区二区三区| 神马午夜一区二区| 暗呦丨小u女国产精品| 九一国产精品视频| 成人免费视频网址| 亚洲午夜小视频| 亚洲电影第三页| 蜜桃久久av一区| 91香蕉在线视频| 亚洲一区二区三区三州| 日本成人看片网址| 91精品国产91久久久久久不卡| 欧美日韩五月天| 2021中文字幕一区亚洲| 国产99视频在线| 国产探花视频在线| 免费观看成人网| 精品国产一区二区三区久久久久久| 日韩视频在线免费观看| 精品av在线播放| 粉嫩av一区二区三区粉嫩| 波多野结衣一二区| 亚洲精品成人无码熟妇在线| 无码人妻精品一区二区蜜桃网站| 国产在线一区二区三区| 亚洲区中文字幕| 丰满人妻一区二区三区53号| 天天操夜夜操视频| 琪琪一区二区三区| 亚洲色图欧美激情| 久久久伊人日本| 激情五月婷婷在线| 日韩av一区二区在线| 欧美日韩精品一区| 亚洲一级视频在线观看| 精品亚洲精品福利线在观看| 久久久久久久久久国产| 先锋资源av在线| 国产精品亚洲第一区在线暖暖韩国| 激情小说综合区| 国产精品一区二区三区四区| 91丨porny丨探花| 午夜婷婷国产麻豆精品| 日本一二区免费| 91精品91久久久中77777| 动漫av网站免费观看| 99精品视频在线观看免费| 久久久亚洲福利精品午夜| 国产麻豆天美果冻无码视频| 日韩欧美在线观看视频| 久久久久久久免费视频| 亚洲GV成人无码久久精品| 欧美一区二区大片| 伦理片一区二区| 色综合天天综合给合国产| 国产不卡一区二区在线观看| 国产调教打屁股xxxx网站| 久久亚洲捆绑美女| 亚洲午夜精品久久久久久人妖| 欧美午夜不卡视频| 欧美日韩在线国产| 欧美激情中文网| 青草草在线视频| 精品欧美久久久| 精品一区在线播放| 日本vs亚洲vs韩国一区三区| 91国语精品自产拍在线观看性色 | 亚洲午夜精品久久久久久人妖| 国产精品主播直播| 91探花福利精品国产自产在线| 国产主播在线播放| 欧美一区二区三区免费大片| 久久婷婷综合色| 久久久久久久一区| 国产精品18久久久久久首页狼 | 精品在线观看一区二区| 亚洲女同ⅹxx女同tv| 大桥未久一区二区三区| 天堂网在线播放| 欧美成人精品一区二区| 久久久久免费看| 北条麻妃一区二区三区| 日韩午夜视频在线观看| 国产一区二三区| 国产精品网站免费| 欧美精品黑人性xxxx| 精品国产xxx| 欧美精品一区在线| 亚洲福利一区二区三区| 亚洲一区二区自偷自拍 | 岛国av在线不卡| 精品无码在线观看| 色伊人久久综合中文字幕| 神马影院一区二区| 国产又黄又粗又硬| 日韩精品在线免费观看| 青青草综合在线| 久久久久久在线观看| 精品视频一区三区九区| 国内精品久久国产| 精品成人无码久久久久久| 欧美一区二区三区免费观看| 日本黄色三级网站| 日韩欧美电影一区| 成都免费高清电影| 亚洲视频在线免费观看| 波多野结衣国产| 在线视频日本亚洲性| 国产麻豆xxxvideo实拍| 欧美日韩一区二区三区免费看| 亚洲一区二区三区黄色| 国产精品资源在线观看| 国产日韩精品在线| 婷婷在线观看视频| 丁香婷婷久久久综合精品国产| 亚洲综合男人的天堂| 九九精品视频免费| 日韩一级在线观看| 国产成人亚洲精品自产在线| 日韩av日韩在线观看| 性一交一乱一透一a级| 中文字幕亚洲自拍| 人妻妺妺窝人体色www聚色窝| 欧美二区三区| 日韩视频不卡中文| www国产在线| 国内外成人免费在线视频| 少妇高潮久久久久久潘金莲| 三级在线观看一区二区| 麻豆传媒一区| 国产69精品一区二区亚洲孕妇| 欧美极品少妇无套实战| 综合亚洲深深色噜噜狠狠网站| 一女三黑人理论片在线| 欧美日韩在线精品一区二区三区激情| 三上悠亚 电影| 欧美一级片在线看| 日韩成人免费看| 久久久久亚洲AV成人无码国产| 韩国视频理论视频久久| 激情综合网激情| 91亚洲一线产区二线产区| 综合网在线视频| 国产美女喷水视频| 81精品国产乱码久久久久久| 中文字幕免费不卡在线| 免费看毛片网站| 日韩欧美xxxx| 国产噜噜噜噜噜久久久久久久久| 欧美日韩免费不卡视频一区二区三区| 国产口爆吞精一区二区| 奇米视频7777| 国产一区二中文字幕在线看| 国产精品久久影院| 免费黄色激情视频| 91高清视频在线免费观看| 丰满放荡岳乱妇91ww| 久久aaaa片一区二区| 国产精品久久久av| 日韩中文字幕1| 亚洲韩国在线| 欧美综合久久久| 久国产精品韩国三级视频| 大乳护士喂奶hd| 久久久久成人精品| 粉嫩aⅴ一区二区三区四区五区 | 正在播放91九色| 欧美制服丝袜第一页| 亚洲国产精品suv| wwwjizzjizzcom| 国产又爽又黄的激情精品视频| 欧美v亚洲v综合ⅴ国产v| 国产亚洲午夜高清国产拍精品 | 欧美日韩精品一区二区三区视频播放 | 黄色一区二区视频| 欧美日韩国产高清视频| 欧美理论电影在线| 欧美一区二区三区成人精品| 亚洲视频专区在线| 国产黑丝在线一区二区三区| 日本在线视频免费| 97在线免费观看视频| 国内成+人亚洲+欧美+综合在线 | 中文字幕在线观看欧美| 成人免费黄色网| 亚洲欧洲综合另类| 精品久久在线观看| 伊人网在线综合| 日韩精品资源| 国产久一一精品| 中文字幕亚洲自拍| 欧美日韩国产高清一区二区三区 | 狠狠色综合欧美激情| 永久免费看mv网站入口亚洲| 国产欧美日韩一区二区三区在线观看| 久久久91视频| 一本色道久久综合亚洲精品婷婷 | 国产一二三区在线播放| 亚洲国产天堂久久综合| 一级视频在线播放| 成人免费在线小视频| 久久在线免费视频| 亚洲国产精久久久久久| 国产精品免费人成网站| 亚洲国产av一区二区三区| 青少年xxxxx性开放hg| 久久精品国产96久久久香蕉| 国产精品理论片在线观看| 日本熟妇色xxxxx日本免费看| 欧美另类极品videosbest最新版本| 亚洲色图都市小说| 无码精品人妻一区二区| 先锋资源av在线| 欧美一级片免费播放| 亚洲一区二区三区精品视频| 国产乱肥老妇国产一区二| 久久精品中文字幕免费mv| 日韩欧美在线观看| 依依成人精品视频| 日韩成人精品视频| 日韩黄色免费观看| 成人免费网站在线| 日本大香伊一区二区三区| 国产精品一区二区三区99| 翔田千里88av中文字幕| 日本激情综合网| 青娱乐一区二区| 亚洲第一区第一页| 大白屁股一区二区视频| 中文字幕电影av| 美女一区二区三区视频| 一区二区三区四区欧美日韩| 成人精品一区二区三区电影黑人| 亚洲国产cao| 久久99精品久久久久婷婷| 黄色一级片免费看| 阿v天堂2014| 综合操久久久| 亚洲欧美在线免费| 五月开心婷婷久久| 国内成+人亚洲+欧美+综合在线 | 欧美少妇bbb| 欧美久久久一区| 在线播放日韩导航| 欧美精品亚洲一区二区在线播放| 一区二区高清在线| 国产欧美中文在线| 久久综合久色欧美综合狠狠| 婷婷在线免费观看| 国产成人精品网| 日本成人在线免费| av免费一区二区| 国产av第一区| 国产欧美精品va在线观看| 久久成人综合视频| 亚洲国产精品系列| 国产日韩欧美精品在线| 国产又大又黄又爽| japanese中文字幕| 五月天国产视频| 在线视频 日韩| 99视频在线观看视频| 日本中文字幕网址| 欧美日韩电影一区二区三区| 国产精品亚洲欧美导航| 97久久精品人搡人人玩| 亚洲欧美国产精品| 成人午夜看片网址| 久久国产主播| 亚洲天堂自拍偷拍| 国产性70yerg老太| 久久9999久久免费精品国产| 黄色激情视频在线观看| 五月婷婷激情五月| 99久久国产免费| 美女网站在线免费欧美精品| 成人永久aaa| 国产亚洲精品中文字幕| 午夜天堂影视香蕉久久| 一本大道久久精品懂色aⅴ| 亚洲欧美中日韩| 久久综合给合久久狠狠狠97色69| 成人福利视频在线| 久久在线精品| 麻豆精品在线视频| 美女又爽又黄视频毛茸茸| 视频区 图片区 小说区| jjzz黄色片| 日本少妇xxxx软件| 92看片淫黄大片一级| 日本不卡一区二区三区在线观看 | 久久99久久99精品| www.com黄色片| 真实乱偷全部视频| 污版视频在线观看| 亚洲不卡中文字幕无码| 白白操在线视频| 欧美 日韩 国产一区| 日本精品福利视频| 热re91久久精品国99热蜜臀| 亚洲精品久久久久久久久| 日韩精品高清在线| 最近中文字幕mv在线一区二区三区四区 | 一区二区在线播放视频| 丰满大乳奶做爰ⅹxx视频| 亚洲怡红院av| 丁香婷婷综合色啪| 亚洲午夜国产一区99re久久| 51午夜精品国产| 亚洲性生活视频在线观看| 欧美成人一区在线| 91av视频在线观看| 国产精品草莓在线免费观看| 国产成人精品最新| 欧美日韩国产成人在线观看| 欧美老少做受xxxx高潮| 日韩在线欧美在线| 欧美激情高清视频| 国产精品视频自拍| 成人蜜桃视频| 欧美一级免费看| 日本不卡免费高清视频| 日本视频久久久| 国产欧美精品va在线观看| 成人免费在线网址| 成人在线视频电影| 欧美一区国产一区| 2022中文字幕| 黑鬼大战白妞高潮喷白浆| 午夜大片在线观看| 国产精品久久久视频|