亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

IP屬地 中國·北京 編輯:唐云澤 量子位 時間:2025-09-12 12:20:57

henry 發自 凹非寺
量子位 | 公眾號 QbitAI

meta超級智能實驗室(MSL)又被送上爭議的風口浪尖了。

不過,這次不是人事風波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質疑忽視前人研究、缺乏創新



究竟是啥論文?

讓模型在博弈中學習

總的來說,MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語言模型在沒有額外訓練數據的情況下實現自我提升

這一方法旨在應對當前大語言模型高度依賴大規模、高質量訓練數據,且訓練數據有限所帶來的困境。

為此,LSP將模型的學習過程設計成一個博弈框架,讓同一個語言模型扮演兩個角色進行對抗,從而實現無數據訓練。



具體來說,這兩個角色分別是:

挑戰者:負責生成越來越有挑戰性的問題或指令。解決者:負責回答或執行這些指令。

在對抗過程中,挑戰者不斷生成越來越刁鉆的問題或指令,以降低解決者的預期回報;而解決者則必須努力理解并回答這些指令,以最大化自身回報——這其實就是我們熟悉的極小極大博弈(minimax game)。



通過這樣的對抗訓練,模型能夠在不斷博弈中持續改進,逐步提升能力。

此外,與傳統對抗訓練不同,LSP讓單個語言模型同時扮演“挑戰者”和“解決者”兩個角色,研究人員給模型設計了一個特殊的“挑戰者提示”(Challenger prompt):當接收到該提示時,模型進入挑戰者模式,生成難題;否則,它就扮演解決者角色,回答問題。

這種單一模型的設計避免了訓練獨立對抗模型所帶來的額外開銷和不穩定性。整個過程完全自主,模型在自我對抗中不斷迭代,從而在沒有外部數據輸入的情況下提升自身能力

為了將這個博弈轉化成模型強化學習的過程,研究中采用了GRPO技巧,讓模型在每輪訓練中進行如下操作:

挑戰者生成問題:每輪生成N個問題。解決者回答問題:對于每個問題,解決者生成一定數量的答案,并分別計算獎勵。計算組價值與優勢:把解決者對同一個問題的所有答案的獎勵進行平均,得到這個問題整體的難度或表現水平。然后用每個答案的實際獎勵減去組價值,判斷這個答案比平均水平高還是低。 - 更新挑戰者優勢:通過計算優勢函數獲得問題和答案的反饋,優化自己出題的策略。



通過這種獎勵機制,挑戰者生成的問題會針對解決者的薄弱環節,從而推動模型不斷改進。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實踐中,研究者發現LSP-Zero有時會退化,例如模型為了獲取獎勵而生成無意義但能獲得高分的內容(即獎勵 hacking)。

針對解決這個問題,他們在LSP算法中引入了“自我質量獎勵”(RQ),引導博弈朝高質量交互發展,使訓練可長期進行。

(注:LSP的具體算法如下表)



最后,為了驗證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca eval基準上進行了兩組實驗。

實驗一將算法與基礎模型本身以及一個通過傳統強化學習微調的大語言模型進行比較。

實驗結果顯示,沒有使用任何數據的LSP和LSP-Zero和使用了數據的GRPO相當,并且顯著優于原始模型。而在 Vicuna這類對話型和開放式指令的數據集上,LSP 的表現遠超GRPO。



實驗二以實驗一中通過數據驅動 RL(GRPO)訓練得到的模型為起點,進一步使用 LSP-Zero 和 LSP 進行訓練,計算這些模型相對于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進行對比。

實驗顯示,經過LSP的進一步訓練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數據集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數據驅動的訓練之后繼續挖掘模型潛力。



總的來說,實驗結果表明,LSP-Zero和LSP算法能夠在無需訓練數據的情況下提升預訓練LLM的性能,尤其是在對話類任務上表現顯著,而這可能意味著AI正在從依賴人類數據過渡到自主學習系統。

網友:感覺忽略了大量前人研究?

雖然(……)但是,LSP一經發布后,在網友們這倒是出了些小插曲。

一位推特網友直言:LSP自稱是突破性工作,但實際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,meta“超級智能”實驗室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒有引用。其實很多人都做過類似研究(比如 @Benjamin_eecs),無論是聯合最大化還是極小極大,不管是驗證器還是獎勵模型。為什么要把這說成是突破呢?你們在Vicuna上的評測確實做得不錯,簡直是2023年LLaMA社區的典型操作。



而且,就連失敗的模型也大同小異。



評論區有網友表示這可能是一篇老工作,然后拿到MSL發的:



(注:網友提及的論文如下:
[1]Absolute Zero: Reinforced Self-play Reasoning with Zero Data
[2]SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning
[3]Scalable Reinforcement Post-Training Beyond Static Human prompts)

截至目前,MSL及論文作者尚未對此作出回應。

[1]https://x.com/teortaxesTex/status/1965654111069876296

[2]https://x.com/_akhaliq/status/1965601392187638018

[3]https://x.com/tydsh/status/1965856666580361705

[4]https://arxiv.org/pdf/2404.10642

[5]https://arxiv.org/pdf/2411.00062

[6]https://arxiv.org/pdf/2505.03335

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

天堂av在线8| 日本77777| 成人av午夜影院| 成人日韩av在线| 一区二区三区免费在线| 久久久久久91| 国产免费一级视频| 136fldh精品导航福利| 亚洲视频 欧美视频| 亚洲欧洲偷拍精品| 国产性xxxx高清| 久久久久国产精品免费网站| 艳妇乳肉豪妇荡乳av| 中文字幕欧美日韩| 波多野结衣激情视频| 久久久久久国产精品美女| 国产黄色免费观看| 欧美一级在线亚洲天堂| 日韩二区三区在线观看| 视频一区国产精品| 亚洲欧洲国产日韩| 亚洲午夜精品久久久久久人妖| 亚洲大尺度视频在线观看| 久久网站免费视频| 欧美精品久久99| 国产成人在线网址| 欧美国产激情18| 亚洲精品视频专区| yy111111少妇影院日韩夜片 | 亚洲欧美一区二区不卡| 中文字幕第六页| 国产一区二区日韩| 在线不卡免费视频| 久久精品综合一区| 亚洲自拍偷拍九九九| 免费看的黄色网| 久久精品欧美视频| 美女精品一区二区| 爱福利视频一区二区| 色欧美日韩亚洲| 在线免费黄色av| 国语精品免费视频| 中文字幕在线不卡视频| 师生出轨h灌满了1v1| 久久久极品av| 午夜视频1000| jizz欧美激情18| 中文字幕日韩欧美在线| 久久精品首页| 91福利国产成人精品播放| 日韩亚洲电影在线| 人妻少妇精品无码专区| 偷拍视频一区二区| 精品国产免费久久| 亚洲色偷精品一区二区三区| www黄色日本| 国产一区二区美女视频| 国内一区二区视频| 日本少妇xxxx| 国产精品国模在线| 欧美日韩国产区| 中文字幕久久熟女蜜桃| 精品免费视频123区| 欧美日韩小视频| 一级一片免费看| 性生活免费观看视频| 亚洲天堂男人天堂| 香蕉av在线播放| 亚洲视频第二页| 久久精品中文字幕免费mv| 91蜜桃网址入口| 无码人妻精品一区二区三区夜夜嗨| 精品一区二区三区免费毛片| 欧美一区日韩一区| 国产精品影视在线观看| 成年人一级黄色片| 在线观看亚洲视频啊啊啊啊| 中文字幕亚洲一区在线观看| 老司机精品视频在线| 国产黄色一区二区三区| 99国精产品一二二线| 日韩欧美不卡在线观看视频| 国产馆精品极品| av成人免费网站| 亚洲国产一二三精品无码| 久久亚洲一区二区三区四区五区高| 国产又黄又大久久| 无码黑人精品一区二区| 国产精品夜夜夜爽张柏芝| 视频直播国产精品| 亚洲最新在线观看| 久久婷婷一区| 三级电影在线看| 在线观看中文字幕码| 亚洲一区二区三区四区视频| 美国毛片一区二区三区| 妺妺窝人体色www婷婷| 日本网站免费在线观看| 国产精品日韩在线观看| 欧美性生活大片视频| 成人动漫精品一区二区| 国产精品一二三四五区| 中字幕一区二区三区乱码| 性欧美精品一区二区三区在线播放 | 日韩美女视频网站| 粉色视频免费看| 四虎一区二区| 国产成人一区二区三区| 亚洲国产三级网| 大伊人狠狠躁夜夜躁av一区| 岛国av在线一区| 99久久精品日本一区二区免费| 舐め犯し波多野结衣在线观看| 日韩小视频在线观看专区| 国产专区欧美精品| 国产精品久久久久久免费| 美国黄色片视频| 日韩精品xxx| 九九爱精品视频| 女女同性女同一区二区三区91| 欧美亚洲在线播放| 自拍偷拍亚洲精品| 欧美日韩一二三区| 一区二区三区成人| 国产盗摄精品一区二区三区在线| 亚洲国产精品无码久久| 亚欧视频在线观看| 国产精品成人免费视频| 色综合欧美在线| 日本一区二区三区在线观看| 国产一区二区精品久久99| 色丁香婷婷综合久久| 无码人妻久久一区二区三区 | 成年人黄色在线观看| 久久国产精品-国产精品| 国产精品a久久久久久| 另类天堂视频在线观看| 中文字幕亚洲一区在线观看| 亚洲欧美一区二区三区四区 | 欧美日韩不卡一区二区| 一区二区在线观看视频在线观看| 国产一区二区三区四区五区美女| 日韩在线卡一卡二| 午夜一区二区三视频在线观看| 奇米一区二区三区四区久久| 久久久久亚洲精品国产| 精品99一区二区| 亚洲国产一区二区三区四区| 欧美日韩在线视频观看| 亚洲成熟女性毛茸茸| 日本国产在线观看| h狠狠躁死你h高h| 亚洲风情第一页| 日韩在线观看一区二区| 久久精品国产一区二区三区免费看 | 欧美日韩一卡二卡| 香港成人在线视频| 欧美三区在线视频| 日韩欧美国产wwwww| 亚洲精品久久久久久久久| 一区二区三区国产视频| 久久精品国产精品亚洲| 韩日精品中文字幕| 亚洲综合在线中文字幕| 欧美日本一区二区三区| 亚洲精品乱码久久久久久日本蜜臀| 2020国产精品| 午夜精品福利在线| 亚洲一区二区美女| 欧美日韩免费观看一区三区| 色综合久久88色综合天天免费| 日韩一区二区免费电影| 日韩视频第一页| 国产成人中文字幕| 狠狠综合久久av| 亚洲精品永久www嫩草| 日本一区二区不卡| 国产一区视频在线播放| 韩国一区二区三区美女美女秀| 亚洲区成人777777精品| 被灌满精子的波多野结衣| 日韩欧美中文视频| 国产精品国产三级国产传播| 波多野结衣黄色| 国产精品996| 亚洲精选在线视频| 精品国产凹凸成av人网站| 最近2019年日本中文免费字幕| 久久这里只有精品99| 97av影视网在线观看| 中文字幕在线亚洲精品| 稀缺小u女呦精品呦| 成人免费视频毛片| 久久成人羞羞网站| 久久久高清一区二区三区| 欧美精品在线视频| 欧美亚洲视频一区二区| 在线观看日本一区| 在线黄色免费网站| 国产精品久久久久久久久久久久久久久久久久 | 色综合久久中文综合久久97| 久久精品亚洲94久久精品| 亚洲一区二区三区毛片 | 精品乱人伦一区二区三区| 国外成人免费在线播放| 国产a一区二区| 久久精品无码一区二区三区毛片| 无码人妻精品一区二区50| 99久久er热在这里只有精品66| 日韩午夜激情免费电影| 国产精品老牛影院在线观看| 99热手机在线| 国产精品美女毛片真酒店| 精品无码三级在线观看视频| 欧美人xxxx| 99久久综合狠狠综合久久止| 日本精品www| 国产精品xxxxxx| 亚洲精品v日韩精品| 欧美精品手机在线| 久久这里只有精品23| 亚洲人与黑人屁股眼交| 国产精品1区二区.| 精品视频在线看| 亚洲伊人久久综合| 国产野外作爱视频播放| 国产成人手机在线| 欧美性猛交xxx| 国产精品高清在线观看| 秋霞午夜鲁丝一区二区| 欧美一区二不卡视频| 欧洲生活片亚洲生活在线观看| 国产日韩综合一区二区性色av| 国产午夜福利100集发布| 中文字幕免费在线看| 午夜伦欧美伦电影理论片| 国产欧美日韩免费| 免费黄色一级网站| 中文字幕在线观看免费| 久久久久久久av麻豆果冻| 欧美国产欧美亚洲国产日韩mv天天看完整| 国产又黄又大又粗视频| 欧美精品亚洲精品日韩精品| 久久久不卡影院| 亚洲熟妇无码久久精品| 成人亚洲精品久久久久软件| 国产亚洲福利社区| 成人福利视频网站| 福利片一区二区三区| 天堂免费在线视频| 91地址最新发布| 国产成人精品免费看视频| 91av在线网站| 久久久蜜桃一区二区| 欧美久久久久免费| 成人午夜激情av| 国产免费成人在线视频| julia一区二区中文久久94| 日韩在线一区二区| 亚洲理论在线a中文字幕| 五月天av在线播放| 亚洲图片有声小说| 日本丰满少妇裸体自慰 | 欧美午夜视频一区二区| 精品999在线| 欧美日本一区二区| 欧美一二三区| 精品国产乱码一区二区三 | 欧美精品在线免费观看| 日本系列欧美系列| 国产人妻互换一区二区| 911精品产国品一二三产区 | 蜜桃999成人看片在线观看| 怡红院av一区二区三区| 永久av免费在线观看| 天天av天天翘天天综合网色鬼国产 | 人禽交欧美网站免费| 蜜臀精品久久久久久蜜臀| 国产一区私人高清影院| 91黄色在线视频| 一本一道综合狠狠老| 黄色三级视频在线| 欧美丰满美乳xxx高潮www| 日本一级一片免费视频| 懂色av一区二区三区在线播放| 亚洲一区二区激情| 成人精品视频99在线观看免费| 久久久久久穴| 欧美亚洲丝袜| 国产精品探花视频| 一区二区三区av| 亚洲成人久久影院| 黄色在线免费播放| 国产99视频精品免视看7| 国产午夜久久久久| 一本一道无码中文字幕精品热| 五月天色一区| 777午夜精品免费视频| 国产女同91疯狂高潮互磨| 精品久久中出| 国产精品成人一区二区艾草 | 日本三级小视频| 韩国三级电影久久久久久| www.天堂av.com| 神马欧美一区二区| 麻豆freexxxx性91精品| 国产一区二区三区色淫影院| 91看片淫黄大片一级| 九一国产精品视频| 欧美成人在线免费| 国产日本欧美一区二区| 特黄特黄一级片| 欧美日韩在线电影| 成熟的女同志hd| 国产精品日韩精品| 国产成人精品影院| 国产精品视频一区国模私拍| 风间由美一区二区三区在线观看| 中文字幕乱码人妻综合二区三区| 欧美女孩性生活视频| 欧美日韩久久婷婷| 日韩一区二区麻豆国产| 国产大屁股喷水视频在线观看| 一道本无吗dⅴd在线播放一区| 国产中文av在线| 久久国产加勒比精品无码| 国产有码在线观看| 国产精品白丝jk白祙| 丁香一区二区三区| 一区二区高清视频| 欧美日韩国产精品专区 | 4438成人网| 国产精品一区无码| 456亚洲影院| 捆绑调教美女网站视频一区| 又大又硬又爽免费视频| 欧美卡1卡2卡| 毛片aaaaaa| 国产99久久精品一区二区| 成人免费视频视频在线观看免费 | 欧美激情免费视频| 久久精品国产精品亚洲红杏| 日日碰狠狠添天天爽超碰97| 日韩欧美在线视频日韩欧美在线视频| 99鲁鲁精品一区二区三区| 国产欧美一区二区三区视频 | 国产极品999| 免费av观看网址| 国产亚洲成av人片在线观看桃| 中文字幕在线2018| 亚洲国产高清国产精品| 欧美无乱码久久久免费午夜一区 | 成+人+亚洲+综合天堂| 欧美 日韩精品| 亚洲毛片在线免费观看| 久久精品女人天堂| 91视频免费版污| 精品伊人久久97| 国产福利一区在线| 国产人妻人伦精品1国产丝袜| 欧洲亚洲女同hd| 亚洲三级在线免费| 国产午夜激情视频| 视频在线一区二区三区| 欧美日韩中文精品| 日韩在线视频观看免费| 一二三四中文字幕| 视频在线观看99| 99国产一区二区三精品乱码| 91在线无精精品白丝| 久久超碰亚洲| 亚洲第一区在线观看| 久久久久国产精品一区二区| 999精品网站| 欧美激情亚洲精品| 亚洲精品一二三四区| 亚洲av中文无码乱人伦在线视色| 久久天天狠狠| 欧美男同性恋视频网站| 全国精品久久少妇| 伊人精品视频在线观看| 91av国产在线| 色老汉一区二区三区| 国产免费高清视频| xxxx国产视频| 狼狼综合久久久久综合网| 亚洲欧美日韩中文在线| 中文天堂在线一区| av av片在线看| www国产视频| 欧美日韩综合另类| 九九热这里只有在线精品视| 一区二区久久久久久| 亚洲风情第一页| 欧产日产国产精品98| 色婷婷精品国产一区二区三区| 欧美成人一区二区三区| 日本一区二区视频在线| 99热这里是精品| 污污视频在线免费| 久久精品国产一区二区三区不卡| 亚洲精品一区二区三区影院| 久久先锋资源网| 午夜婷婷在线观看| 中文字幕第22页| 国产精品9999久久久久仙踪林| 亚洲精品一区二区在线| 一个色在线综合| 成人精品视频一区二区三区| 亚洲一区二区人妻|