亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

IP屬地 中國·北京 編輯:任飛揚 量子位 時間:2025-09-12 14:30:07

henry 發自 凹非寺

量子位 | 公眾號 QbitAI

meta超級智能實驗室(MSL)又被送上爭議的風口浪尖了。

不過,這次不是人事風波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質疑忽視前人研究、缺乏創新。

究竟是啥論文?

讓模型在博弈中學習

總的來說,MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語言模型在沒有額外訓練數據的情況下實現自我提升。

這一方法旨在應對當前大語言模型高度依賴大規模、高質量訓練數據,且訓練數據有限所帶來的困境。

為此,LSP將模型的學習過程設計成一個博弈框架,讓同一個語言模型扮演兩個角色進行對抗,從而實現無數據訓練。

具體來說,這兩個角色分別是:

挑戰者:負責生成越來越有挑戰性的問題或指令。 解決者:負責回答或執行這些指令。

在對抗過程中,挑戰者不斷生成越來越刁鉆的問題或指令,以降低解決者的預期回報;而解決者則必須努力理解并回答這些指令,以最大化自身回報——這其實就是我們熟悉的極小極大博弈(minimax game)。

通過這樣的對抗訓練,模型能夠在不斷博弈中持續改進,逐步提升能力。

此外,與傳統對抗訓練不同,LSP讓單個語言模型同時扮演“挑戰者”和“解決者”兩個角色,研究人員給模型設計了一個特殊的“挑戰者提示”(Challenger prompt):當接收到該提示時,模型進入挑戰者模式,生成難題;否則,它就扮演解決者角色,回答問題。

這種單一模型的設計避免了訓練獨立對抗模型所帶來的額外開銷和不穩定性。整個過程完全自主,模型在自我對抗中不斷迭代,從而在沒有外部數據輸入的情況下提升自身能力。

為了將這個博弈轉化成模型強化學習的過程,研究中采用了GRPO技巧,讓模型在每輪訓練中進行如下操作:

挑戰者生成問題:每輪生成N個問題。

解決者回答問題:對于每個問題,解決者生成一定數量的答案,并分別計算獎勵。

計算組價值與優勢:把解決者對同一個問題的所有答案的獎勵進行平均,得到這個問題整體的難度或表現水平。然后用每個答案的實際獎勵減去組價值,判斷這個答案比平均水平高還是低。 - 更新挑戰者優勢:通過計算優勢函數獲得問題和答案的反饋,優化自己出題的策略。

通過這種獎勵機制,挑戰者生成的問題會針對解決者的薄弱環節,從而推動模型不斷改進。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實踐中,研究者發現LSP-Zero有時會退化,例如模型為了獲取獎勵而生成無意義但能獲得高分的內容(即獎勵 hacking)。

針對解決這個問題,他們在LSP算法中引入了“自我質量獎勵”(RQ),引導博弈朝高質量交互發展,使訓練可長期進行。

(注:LSP的具體算法如下表)

最后,為了驗證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca eval基準上進行了兩組實驗。

實驗一將算法與基礎模型本身以及一個通過傳統強化學習微調的大語言模型進行比較。

實驗結果顯示,沒有使用任何數據的LSP和LSP-Zero和使用了數據的GRPO相當,并且顯著優于原始模型。而在 Vicuna這類對話型和開放式指令的數據集上,LSP 的表現遠超GRPO。

實驗二以實驗一中通過數據驅動 RL(GRPO)訓練得到的模型為起點,進一步使用 LSP-Zero 和 LSP 進行訓練,計算這些模型相對于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進行對比。

實驗顯示,經過LSP的進一步訓練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數據集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數據驅動的訓練之后繼續挖掘模型潛力。

總的來說,實驗結果表明,LSP-Zero和LSP算法能夠在無需訓練數據的情況下提升預訓練LLM的性能,尤其是在對話類任務上表現顯著,而這可能意味著AI正在從依賴人類數據過渡到自主學習系統。

網友:感覺忽略了大量前人研究?

雖然(……)但是,LSP一經發布后,在網友們這倒是出了些小插曲。

一位推特網友直言:LSP自稱是突破性工作,但實際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,meta“超級智能”實驗室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒有引用。其實很多人都做過類似研究(比如 @Benjamin_eecs),無論是聯合最大化還是極小極大,不管是驗證器還是獎勵模型。為什么要把這說成是突破呢?你們在Vicuna上的評測確實做得不錯,簡直是2023年LLaMA社區的典型操作。

而且,就連失敗的模型也大同小異。

評論區有網友表示這可能是一篇老工作,然后拿到MSL發的:

(注:網友提及的論文如下:

[1]Absolute Zero: Reinforced Self-play Reasoning with Zero Data

[2]SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

[3]Scalable Reinforcement Post-Training Beyond Static Human prompts)

截至目前,MSL及論文作者尚未對此作出回應。

參考鏈接

[1]https://x.com/teortaxesTex/status/1965654111069876296

[2]https://x.com/_akhaliq/status/1965601392187638018

[3]https://x.com/tydsh/status/1965856666580361705

[4]https://arxiv.org/pdf/2404.10642

[5]https://arxiv.org/pdf/2411.00062

[6]https://arxiv.org/pdf/2505.03335

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

久久se这里有精品| 亚洲精品www久久久久久| 91日韩一区二区三区| 国产精品高潮呻吟久久av黑人| 国产毛片欧美毛片久久久| 久久蜜桃一区二区| 国产精品久久激情| 九九热国产精品视频| 欧美精品第一页| 亚洲黄色网址在线观看| 蜜桃久久久久久久| 久久99久国产精品黄毛片入口| 欧美特级黄色录像| 欧美视频免费在线| 色哺乳xxxxhd奶水米仓惠香| 无码精品在线观看| 欧美大奶子在线| 久久精品老司机| 亚洲五月六月丁香激情| 国内少妇毛片视频| 日韩av中文在线观看| 久久久久国产精品一区三寸| 日韩精品在线私人| 国产欧美精品aaaaaa片| 国产98色在线|日韩| 91精品国产一区二区三区动漫| 中文字幕在线观看1| 亚洲欧美制服第一页| 国产精品一级黄片| 欧美在线观看视频在线| 九色91popny| 久久久久久毛片| 亚洲精品tv久久久久久久久| 久久久久久黄| 日本精品中文字幕| 国产日产精品一区二区三区| 亚洲图片欧洲图片av| sm捆绑调教视频| 精品少妇一区二区三区| 999在线精品视频| 五月婷婷激情综合| 中文字幕 日韩 欧美| 亚洲精品国产无天堂网2021 | 超碰在线97免费| 亚洲在线免费播放| 五月婷婷之综合激情| 五月婷婷综合在线| 日本va中文字幕| 欧美激情一区二区在线| 亚洲国产精品女人| 成人精品视频.| 亚洲人体一区| 国产精品乡下勾搭老头1| 欧美日韩亚洲综合一区二区三区激情在线 | 欧美精品123| 成人国产精品免费观看动漫| 精品一区二区成人免费视频| 日本一区二区三区国色天香| 日本福利视频在线| 国产精品福利一区| 国产成人一二三区| 亚洲精品免费播放| 精品久久久久久无码中文野结衣| 91免费看视频| 中文字幕一区二区三区四区五区人 | 天天干天天操天天玩| 91精品福利视频| 国产精品偷伦视频免费观看了 | 亚洲欧美精品一区二区三区| 国产午夜精品全部视频在线播放| 91国产丝袜播放在线| 久久伊人免费视频| 国产视频在线观看免费 | 一本加勒比波多野结衣| 一本一本a久久| 午夜精品一区在线观看| 久久一级免费视频| 久久久久久久国产精品| 久久精品在这里| 久久精品视频国产| 丰满少妇被猛烈进入高清播放| 亚洲激情小视频| 日韩国产精品91| 中文字幕有码av| 精品日韩在线观看| 麻豆精品在线看| 国产伦理片在线观看| 日本xxxxxxxxxx75| 国产精品中文在线| 国产亚洲精品成人av久久ww| 在线免费观看一区| 国产精品传媒在线| 日韩一区免费视频| 国产无精乱码一区二区三区| av免费观看网| 国产精品∨欧美精品v日韩精品| www.av精品| 成年人av电影| 亚洲最新免费视频| 自拍视频国产精品| 蜜桃av一区二区在线观看| 亚洲国产成人va在线观看麻豆| 成人黄色短视频在线观看| 视频在线观看一区二区| 精品日本高清在线播放| 天天射天天操天天干| 天天av天天操| 精品国产乱码久久久久| 91免费看`日韩一区二区| 波多野结衣 在线| 国产精品亚洲天堂| 久久国产精品免费视频 | 日韩无套无码精品| 波多野结衣久草一区| 欧美日韩小视频| 一级成人免费视频| 毛片在线免费播放| 丰满少妇中文字幕| 亚洲天堂电影网| 国产精品免费久久久| 欧美一a一片一级一片| 国产一区二区三区观看| 不卡中文字幕在线观看| 91色视频在线观看| 日韩一区二区高清| 久久亚洲免费视频| 91亚洲视频在线观看| 中文字幕久久av| 国产精品视频99| 91黄视频在线观看| 成人小说亚洲一区二区三区 | 91在线色戒在线| 国产精品1区2区| 国产又粗又大又爽视频| 成人欧美一区二区三区黑人一| 茄子视频成人免费观看| 国产精品亚洲综合| 亚洲人成在线观看| 最近日韩中文字幕| 在线不卡av电影| 99视频网站| 日韩精品在线观看一区| 一区二区三区小说| 亚洲国产成人在线| 国产a精品视频| 免费精品视频在线| 国产一级视频在线观看| aa在线免费观看| 国产精品久久一区主播| 欧美一区二区美女| 91网上在线视频| 国产人妻精品一区二区三| 加勒比av中文字幕| 午夜美女久久久久爽久久| 国产女主播一区| 国产性xxxx高清| 亚洲国产一二三精品无码| 亚洲综合在线做性| y97精品国产97久久久久久| 国产精品三级视频| 久久99精品国产91久久来源| 日韩免费黄色片| 国产精品美女高潮无套| 亚洲 中文字幕 日韩 无码| 宅男66日本亚洲欧美视频| 国产精品日日夜夜| 亚洲一区精品视频在线观看| 国产精品视频公开费视频| 亚洲视频第一页| 色综合色综合色综合| 1000精品久久久久久久久| 国产成人高清在线| 精品中文字幕一区二区| 国产成人一级片| 中文字幕成人在线视频| 中文精品视频一区二区在线观看| 欧美激情极品视频| 欧美一三区三区四区免费在线看| 精品一区二区三区影院在线午夜 | 97色在线视频| 777777777亚洲妇女| 欧美在线观看视频一区二区三区| 成人网男人的天堂| 天天综合在线视频| 黄色录像a级片| 最近免费中文字幕中文高清百度| 国内外成人免费视频| 国内不卡一区二区三区| 久久久精品国产一区二区三区| 精品久久久久久乱码天堂| 艳母动漫在线免费观看| 精品人妻人人做人人爽| 日韩a∨精品日韩在线观看| 国产夫妻自拍一区| 已婚少妇美妙人妻系列| www.99riav| 日韩av不卡在线播放| 国产精品久久久久免费a∨| 日韩欧美国产午夜精品| 精品国产三级电影在线观看| 91福利在线播放| 欧美日韩国产专区| 亚洲风情在线资源站| 精品久久久久成人码免费动漫| 欧美性生交大片| 国产精品69毛片高清亚洲| 丰满大乳国产精品| 岛国毛片在线观看| 中文字幕网站在线观看| 亚洲国产精品自拍视频| 亚洲精品视频三区| 不卡的av一区| 国产精品永久在线| 国产欧美日韩中文| 97久久精品人人澡人人爽缅北| 97超碰人人看人人| 亚洲美女搞黄| 久热免费在线观看| 蜜桃传媒一区二区亚洲av| 91av手机在线| 日韩欧美一区二区一幕| 国产精品久久久久久久成人午夜| 欧美激情黑白配| 亚洲永久精品在线观看| 久久夜色精品亚洲| 毛茸茸free性熟hd| 日韩人妻无码精品综合区| 中文字幕精品视频在线| 一级少妇精品久久久久久久| 中文字幕 亚洲一区| 黄色成人在线看| 日本不卡一区二区三区视频| 国产精品国产一区二区| 一级一片免费播放| 国产九九九视频| 东京热无码av男人的天堂| 欧美高清精品一区二区| 五月婷婷六月丁香激情| 超碰在线人人爱| 男人的天堂最新网址| 久久久com| 国产区亚洲区欧美区| 91亚洲人电影| 国内精品久久国产| 欧美一区二区三区综合| 久久精品国产露脸对白| 久热精品在线观看| 亚洲av无码国产精品永久一区| 国产69精品久久久久777| 亚洲特黄一级片| 欧美偷拍一区二区| 亚洲国产精品va| 欧美精品一区二区久久婷婷| 国产一区二区三区精品久久久 | 国产视频九色蝌蚪| 日本黄色片一级片| 免费日韩电影在线观看| 亚洲资源在线看| 国产精品美女www爽爽爽视频| 欧美激情视频免费观看| 久久精品小视频| 91精品国产乱码久久久久久蜜臀 | 欧美整片在线观看| 国产亚洲福利社区| 人人干人人视频| caoporn91| www.蜜臀av.com| 成人毛片视频在线观看| 欧美国产在线观看| 综合分类小说区另类春色亚洲小说欧美 | 亚洲欧美在线另类| 一区二区日韩av| 中文字幕欧美一区| 94色蜜桃网一区二区三区| 国产精品一区二区三区四区| 麻豆精品一区二区综合av| 久久一区二区三区超碰国产精品| 国产日产亚洲系列最新| 性感美女福利视频| 久久午夜色播影院免费高清| 亚洲夂夂婷婷色拍ww47| 亚洲成人av福利| 精品久久久久久无| 日韩中文字幕av| 国产精品久久久久免费| 五月天激情播播| 久久午夜鲁丝片| 2020国产精品自拍| 欧美一级国产精品| y111111国产精品久久婷婷| 国产免费成人在线| 五月综合色婷婷| 亚洲 另类 春色 国产| 97久久精品人人做人人爽| 午夜久久久久久| 日韩精品极品在线观看| 欧美日韩爱爱视频| 国产精品久久久久久久小唯西川| 精品久久一二三| www男人天堂| 久久精品国产成人av| 亚洲黄色片视频| 激情综合色丁香一区二区| 国产偷国产偷亚洲高清人白洁| 色香蕉成人二区免费| 欧美国产日韩视频| 小说区图片区图片区另类灬| 少妇一级淫免费观看| 国产chinesehd精品露脸| 美女又爽又黄免费| 91精品国产高潮对白| 久久99久久99| 久久精品国产99国产| 中文字幕亚洲区| 精品久久久久久久久久久久久久久| 久久久国产一区二区| 久久视频在线直播| 欧美亚洲激情视频| 国产精品91视频| 国产精品日韩在线一区| 鬼打鬼之黄金道士1992林正英| 国产精选在线观看91| 四虎一区二区| 日韩国产精品毛片| wwwxxx黄色片| 天天干天天操天天做| 丰满少妇一区二区三区专区| 手机看片国产日韩| 久久久久亚洲AV成人| 国产无套粉嫩白浆内谢| 精品久久久免费视频| 激情综合色播激情啊| 波多野结衣中文字幕一区| 中文字幕佐山爱一区二区免费| 91久久精品国产91性色tv| 日韩精品一区二区三区视频在线观看 | 国产永久免费网站| 中国黄色a级片| 久久国产视频一区| 99在线观看精品视频| 激情综合网av| 国产精品视频你懂的| 欧美日韩在线精品一区二区三区激情| 日韩一级片在线观看| 麻豆成人在线看| 川上优av一区二区线观看| 最近看过的日韩成人| 国产一区二区在线免费播放| 人与嘼交av免费| a在线观看视频| 97精品电影院| 5858s免费视频成人| 久久国产精品首页| 亚洲专区中文字幕| 日韩精品第1页| 欧亚乱熟女一区二区在线| 久久综合成人网| 五月婷婷六月丁香| 国产人久久人人人人爽| 欧美日韩国产bt| 欧美激情网友自拍| 亚洲7777| 无码人妻aⅴ一区二区三区| 中文字幕在线观看精品| 国产一区高清在线| 精品magnet| 一道本无吗dⅴd在线播放一区| 91九色国产视频| 亚洲人成无码www久久久| 国产白丝一区二区三区| 婷婷五月综合久久中文字幕| 国产精品美日韩| 精品不卡在线视频| 91久久久久久久久| 国产自产在线视频| 午夜激情福利网| 性xxxx视频| 色婷婷一区二区| 欧美尺度大的性做爰视频| 亚洲欧洲日韩精品| 真人bbbbbbbbb毛片| 自拍偷拍福利视频| 日本一区二区三区dvd视频在线| 7777精品伊人久久久大香线蕉经典版下载 | 国产精品偷伦一区二区| 欧洲精品视频在线| 91人妻一区二区三区蜜臀| 久久99精品久久久久久国产越南| 亚洲一区二区美女| 欧美激情网友自拍| 中国成人亚色综合网站| 真实乱视频国产免费观看| 日韩二区三区四区| 一本久久a久久免费精品不卡| 久久综合久久88| 亚洲福利av| 精品无人区无码乱码毛片国产| www视频在线| 亚洲激情图片一区| 美女av一区二区| 霍思燕三级露全乳照| 一级片中文字幕| 亚洲欧洲在线观看av| 中文字幕久久亚洲| 日本午夜精品一区二区三区| 免费看毛片的网站| 欧美视频一二区| 欧美日韩一区三区四区| 国产福利精品在线| 欧美精品无码一区二区三区|