亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

LLM搶人血案:強化學習天才被挖空,一朝淪為「無人區」!

IP屬地 中國·北京 編輯:唐云澤 新智元 時間:2025-08-04 14:19:34


新智元報道

編輯:KingHZ

AlphaStar等證明強化學習在游戲等復雜任務上,表現出色,遠超職業選手!那強化學習怎么突然就不行了呢?強化學習到底是怎么走上歧路的?

最近,斯坦福的AI+CS博士Joseph Suarez發表了對強化學習的歷史回顧。

結果,在上火了!目前,已有38.2萬閱讀。


封面可謂醒目:一條曲線線先是快速上升,然后平緩爬升,最后卻急轉直下 ,暗喻RL領域的研究前途不妙!

從歷史角度看,強化學習發生了什么?為什么到現在它才真正開始起飛?

他提供了獨特的個人視角。


師出名門

2019年, 他本科畢業于斯坦福大學計算機科學專業人工智能方向。

2018年,他利用休學期在OpenAI完成6個月實習,期間正式發布Neural MMO首個公開版本

更早之前,他曾在李飛飛課題組、吳恩達實驗室參與過研究項目。

大約從2017年,他開始從事強化學習。

當時,他在麻省理工學院Phillip Isola實驗室攻讀博士,開始創建開源計算研究平臺Neural MMO。

他的研究聚焦于推動現代基于智能體的學習方法向更復雜、更具認知真實性的環境拓展。


后來,這個項目后來成為他整個博士生畢業論文的的主題。


論文鏈接:https://jsuarez5341.github.io/static/jsuarez_phd_thesis.pdf

這也為他PufferLib的工作奠定了基礎。


當時,各大實驗室也在做從零開始、非語言模型的強化學習RL。

事實上,這是當時大多數工作的重點:多智能體(multiagent)剛剛興起,所有核心算法剛剛發布。

AlphaGo讓研究者已經看到了強化學習的潛力。OpenAI Five正在開發中,當時他恰好在OpenAI實習,所以親眼看到了一些工作。


OpenAI的DoTA(Dota 2)項目,則完全讓他信服RL的神奇。


論文鏈接:https://cdn.openai.com/dota-2.pdf

你如果不玩這款游戲,難以想象這個問題有多復雜。

你不會相信人們居然把打DoTA當成愛好。它和圍棋并非完全一樣,無法直接比較,但它確實涉及許多圍棋中沒有的、與現實世界相關的推理類型。

比如,高低級策略、控制、團隊協調和心智理論(theory of mind),這些只是其中幾個例子。


而OpenAI用1.68億參數的網絡,在約1000個GPU上訓練,打敗了頂尖職業選手。


現在,用64到128個H100 GPU,你也能做到。

而且還不止一個結果。還有AlphaStar、Capture the Flag、Emergent Tool Use……


在訓練過程中,AlphaStar最終被選中與職業選手MaNa對抗的智能體(黑點)其策略與競爭對手(彩點)的演化過程。每個彩點代表AlphaStar聯賽中的一位競爭對手

短短時間內,有好幾個主要的RL展示項目。那么,既然潛力這么明顯,領域肯定會繼續前進,對吧……對吧???

為什么RL衰落了

從2019年到2022年的,有些工作繼續在進行,但強化學習明顯在走下坡路。

盡管那幾年論文更多了,但沒有多少像2017-2019年那種水平的持久突破。究竟發生了什么?

首要的因素是學術短視。

整個領域集體決定了一套標準,卻沒有實際理由。在這些標準下,幾乎不可能出現什么進步。

由于歷史原因,Agent57成為了最常見的基準,共包含57款雅達利游戲。


由于任務結果波動大,需要運行所有游戲(理想情況下,每款游戲使用多個種子)。同時,學界決定x軸應該是樣本數,而不是實際運行時間(墻鐘時間)。

背后的想法是,這更接近現實世界的學習,許多問題受限于采樣率。而且你不用擔心不同論文的硬件設置。

然而,顯而易見的問題是沒有限制硬件使用量,可以通過投入更多計算資源來提升基準成績。因此,研究變得愈加耗時,以至于單個游戲的單獨運行可能需要耗費數周的GPU時間。

因為學術界對工程很排斥,代碼基底也慢得可怕。更不用說有限的預算……

所以,你最終需要1萬GPU小時,在利用率不到5%的情況下運行一組消融實驗(ablations)。

這樣的研究方式根本行不通,跟好的科學更不沾邊。

要是沒有上萬小時的GPU算力,很多人干脆不做消融實驗就直接發論文——難怪那時候的研究成果基本無法復現。

另外,學界追名逐利。

大語言模型(LLMs)出現了。

人們經常問他為什么討厭LLM。他真的不討厭。他討厭的是,它們從其他領域吸走了99%的天才,而不是更合理的80%。

他眼看著最有才華的同事一個個離開RL研究領域,被雇去研究LLM。這很難去責怪他們。做RL太糟了。那是艱苦、殘酷的工作,對抗一套似乎專門設計來阻礙真正進步。

在一般深度學習中你習以為常的基本東西,甚至2015年的東西,在RL中都不存在。

超參數沒道理,模型無法擴展,簡單的任務也無法順利轉移。

盡管他們有證據證明RL能在DoTA和圍棋之類的驚人問題上奏效,但日常工作的感覺就是絕望。

現在的RL重蹈覆轍

緩慢的實驗周期、過度優化的評價體系、遲緩的開發進度……這一切聽起來是否耳熟?

現代RL研究不知怎么花了數十億美元,卻再現了最初扼殺RL發展的混亂局面,重蹈覆轍。

David Peterson對此非常認同:強化學習莫名其妙地多次重蹈覆轍,上一次是時序差分。


這一次它會走得更遠,畢竟有利可圖……但效率極低。

看著該領域重新陷入前人多年前就已經克服的困境,同時為各種概念創造新的術語,令人啼笑皆非。

「多輪RL」意思是「不只是賭博機問題」(not a bandit)。這幾乎涵蓋了全部的RL新研究,除了某些小眾理論研究。

「長期規劃」(Long horizons)也不是新東西,這也不是讓問題變得如此困難的全貌。

當前對早期RL研究的充滿了不信任,Joseph Suarez表示理解——

因為許多發表的內容確實存在問題。

另尋他路

Joseph Suarez還在堅持用小模型從零開始的RL。

只是現在,這不再是衰落的舊勢力,他們在以驚人速度突破。

那么,什么改變了?

完成博士學位后,他決定完全從學界的隨意的標準中解放出來,從頭重建RL。

標準是墻鐘訓練時間,性能工程將和算法工作一樣重要。

他花幾個月時間拆除所有慢的基礎設施,目標是每秒數百萬步的吞吐,而不是幾千。

起初,這只是現有方法的加速版本。這對解決行業中因成本過高而難以實施的問題已綽綽有余。

但這還不止——這個過程實際上讓他們能夠以前所未有的速度開展高質量研究。當你可以運行1000倍的實驗時,無需過于精巧的方法論;當所有選項都可以測試時,也無需小心翼翼地挑選變量。


最新基準測試顯示,在單個RTX 5090上,強化學習庫PufferLib 3.0的訓練速度最高可達每秒400萬步

一年前,你需要RL博士學位和幾周到幾個月來處理每個新問題。如果你沒有經驗,耗時就更長了。現在,新手程序員在幾天內讓RL在新問題上運行。不是超級難的問題——那些還是需要點經驗。但比之前好多了。

他們走在正確方向的跡象:他們在簡單環境上的實驗能泛化到更難環境。

他們認為之前的batch size和特定退化超參數是罪魁禍首。不是100%——肯定有些技術只有在更難問題上才見效。

但他們現在有足夠多在幾分鐘內運行的技術,開發周期還是很快。

下一步:他們計劃能用現有東西解決有價值的問題。

只要能建快模擬器,RL大多能工作。嘿,在很多問題上,它開箱即用。

長期來看,他們會回到舊的樣本效率研究。但他們還是會從至少保持flop效率的角度接近它。不再讓GPU在5%利用率下跑批量大小8的200萬參數網絡。

參考資料:

https://x.com/jsuarez5341/status/1946622588891107565


免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

久久高清免费视频| 激情偷乱视频一区二区三区| 亚洲色婷婷久久精品av蜜桃| 99国产精品国产精品久久| 中文字幕在线观看国产| 极品人妻videosss人妻| 无码人妻丰满熟妇区96| 日韩欧美国产二区| 精品在线播放免费| 久久av中文字幕片| 久久综合av免费| 91精品办公室少妇高潮对白| 日韩欧美国产三级电影视频| 免费91麻豆精品国产自产在线观看| 欧美性xxxx在线播放| 国产又大又黑又粗免费视频| 日韩av片在线看| 国产精品亚洲二区在线观看| 在线免费观看成人短视频| 精品国产亚洲AV| 久久69国产一区二区蜜臀| av网站在线免费看| 天堂网一区二区三区| 国产精品自产拍在线观看| 久久亚洲国产精品成人av秋霞| 亚洲美女久久久| 成人福利网站在线观看11| 国产精品自拍视频在线| 久久久久久久亚洲| 精品人妻少妇嫩草av无码专区| 亚洲综合自拍网| 日韩精品一区二区三区色欲av| 欧美性受xxxx黑人猛交| 欧美丝袜一区二区| 丝袜亚洲精品中文字幕一区| 国产亚洲欧美一级| 久久99久久精品欧美| 青娱乐精品视频| 视频一区二区欧美| 在线视频第一页| 午夜在线观看一区| 亚洲第一区中文字幕| 欧美成人性战久久| 国产亚洲一级高清| 91好吊色国产欧美日韩在线| 国产va亚洲va在线va| 亚洲丝袜一区在线| 日韩一级av毛片| 能看毛片的网站| 精品人伦一区二区| 中文字幕亚洲精品在线| www夜片内射视频日韩精品成人| 一级性生活毛片| 丰满少妇xbxb毛片日本| 久久精品国产亚洲av久| 精品熟女一区二区三区| 7777精品伊人久久久大香线蕉的| 欧美日本一区二区在线观看| 久久久av亚洲男天堂| 1卡2卡3卡精品视频| 91午夜在线观看| 亚洲专区区免费| 性欧美videos另类hd| 国产亚洲欧美日韩俺去了| 欧美日韩国产电影| 91黑丝高跟在线| 相泽南亚洲一区二区在线播放| 天天爱天天操天天干| 一区二区三区四区五区| 色婷婷在线视频| 亚洲国产成人av网| 欧美日韩福利电影| 亚洲国产午夜伦理片大全在线观看网站| 女同性αv亚洲女同志| 国产午夜小视频| 91麻豆一区二区| 免费观看一区二区三区| 国产原创一区二区三区| 国产色产综合产在线视频| 在线不卡欧美精品一区二区三区| 久久久久久久久久美女| 久久亚洲欧美国产精品乐播| 亚洲视频免费观看| 国产精品福利视频| 欧美日韩一区二区在线播放| 精品一区二区三区香蕉蜜桃 | 视频一区视频二区视频三区视频四区国产| 欧美精品在线免费| 精品日韩视频在线观看| 国产成人精品综合在线观看 | 色婷婷亚洲一区二区三区| 日本欧洲一区二区| 欧美一二三区视频| 超碰在线资源站| 亚洲欧美日韩在线综合| 韩国v欧美v日本v亚洲| 精品91自产拍在线观看一区| 国产欧美一区二区精品性| 高潮毛片7777777毛片| 日韩成人毛片视频| 992tv人人草| 99爱视频在线| 日韩高清专区| 91超碰在线电影| 国产性猛交xxxx免费看久久| 在线观看www91| 亚洲欧美激情视频在线观看一区二区三区| 国产精品一区二区在线观看网站| av老司机久久| 精品人妻一区二区三区四区不卡| 久草视频在线观| 国产一级一级片| 亚洲欧美在线视频免费| 婷婷激情五月网| 亚洲黄色免费观看| 国产亚洲精品成人| 亚洲日本韩国在线| 中文字幕国产在线观看| 黄色在线免费观看| 国产精品视频第一页| 最新在线中文字幕| 亚洲伦理在线观看| 蜜乳av一区二区| 久久久久99精品国产片| 亚洲欧美激情视频在线观看一区二区三区| 国产精品欧美久久久久无广告| 亚洲伊人伊色伊影伊综合网| 91精品国产综合久久久蜜臀图片| 亚洲人成在线播放| 欧美精品国产精品日韩精品| 999热视频在线观看| 9999在线观看| 黄色免费网址大全| 国产免费一区二区三区网站免费| 国产一区二区三区在线视频观看| 日本欧美www| 免费不卡av在线| 欧美激情一区二区三区久久久| 九色精品美女在线| 深夜福利国产精品| 欧美不卡激情三级在线观看| 7777精品伊人久久久大香线蕉最新版| 欧美午夜精品理论片a级按摩| 两个人的视频www国产精品| 国产伦精品一区二区三区照片| 调教+趴+乳夹+国产+精品| 欧美揉bbbbb揉bbbbb| 欧美国产激情18| 不卡日韩av| 永久免费看av| 影音先锋男人在线| 影音先锋亚洲天堂| 中文字幕人妻一区二区在线视频 | 欧美激情视频网址| 国产又粗又硬又长| 精人妻一区二区三区| 国产片在线播放| 一区二区三区四区不卡在线| 久久中文字幕在线| 国产精品久久视频| 欧美日韩性生活片| 美女又黄又免费的视频| 欧美一级淫片aaaaaa| 国产日产欧美一区二区三区 | 91深夜福利视频| 116极品美女午夜一级| 成人毛片在线播放| 亚洲一本大道在线| 免费91麻豆精品国产自产在线观看| 国产精品视频1区| avtt中文字幕| 伊人成年综合网| 欧美日韩在线第一页| 国产精品嫩草99a| 欧美激情高清视频| 另类欧美小说| 国产在线视频卡一卡二| 一区二区三区国产精品| 成人福利视频网| 色偷偷www8888| 一区二区三区四区在线| 欧美一区二区福利在线| 亚欧洲精品在线视频免费观看| 妺妺窝人体色www在线小说| 欧洲美女女同性互添| 美女一区二区视频| 亚洲一区二区三区自拍| 国产精品日韩在线观看| 波多野结衣综合网| 麻豆国产一区二区| 日韩av电影院| 国产老熟女伦老熟妇露脸| 久久久噜噜噜久久中文字幕色伊伊 | 一级黄色a视频| 国产丝袜视频一区| 日韩中文在线字幕| 国语对白永久免费| 亚洲一区二区美女| 日韩电影天堂视频一区二区| 在线视频播放大全| 欧美日高清视频| 色乱码一区二区三区在线| 精品亚洲porn| 91美女福利视频高清| 精品无码一区二区三区的天堂| 亚洲国产精品一区二区尤物区| 久久久久久久久久码影片| www.com在线观看| 欧美一级片免费看| 久久久精品麻豆| 一级黄色片免费| 精品三级在线观看| 国产又粗又猛又色| 亚洲少妇30p| 中文字幕不卡每日更新1区2区| 国产福利一区二区三区在线视频| 91传媒在线免费观看| 亚洲AV无码精品国产| 国产精品电影观看| 精品人妻久久久久一区二区三区| 91成人免费在线视频| 色综合久久久无码中文字幕波多| 欧美日韩黄色大片| 亚洲综合中文网| 欧美日韩美少妇| 久久出品必属精品| 欧美日韩一级黄| 亚洲a v网站| 裸体裸乳免费看| 日韩欧美美女一区二区三区| 欧美成人黄色网址| 亚洲一级片在线观看| 欧美一级视频免费看| 欧美日韩午夜激情| 国产传媒一区二区三区| 亚欧洲精品在线视频| 国产欧美一区二区精品久导航 | 亚洲av熟女国产一区二区性色| 精品国产麻豆免费人成网站| 青娱乐91视频| 久精品免费视频| 久久只有精品| 国产精品免费看一区二区三区| 99re这里只有精品在线| 国产精品黄视频| 国产欧美日韩综合精品一区二区| 免费久久99精品国产自| 成人一区二区三区中文字幕| 久久久精品在线视频| 日韩欧美中文字幕在线播放| 久久国产高清视频| 91av在线国产| 日韩av电影天堂| 99中文字幕在线观看| 欧美日韩国产色| 日本少妇毛茸茸| 久久久久久久999精品视频| 亚洲一二三四在线| 成人精品一区二区三区中文字幕| 精品午夜福利在线观看| av观看免费在线| 视频一区视频二区视频| 久久久噜噜噜久久| 伊人色综合久久天天| 久久av无码精品人妻系列试探| 国产香蕉一区二区三区在线视频| 中文字幕av久久爽| 国内精品二区| 偷偷要91色婷婷| 日韩av在线天堂| 欧美日韩视频免费在线观看| 欧美精品一区二区三区一线天视频| 一区二区国产欧美| 久久久久久久午夜| 久久综合九色九九| 久久先锋影音av鲁色资源网| 四季av综合网站| 国产伦理久久久| 精品亚洲夜色av98在线观看| 国产原创一区二区| √天堂中文官网8在线| 成人精品视频在线| 91精品国产福利| 免费人成自慰网站| 色系列之999| 国产精品女上位| 在线视频 91| 国产va亚洲va在线va| 青青久久av北条麻妃海外网| 91aaaa| 三级av免费观看| 色老头一区二区三区在线观看| 激情综合五月天| 日韩三级视频在线播放| 一级二级三级欧美| 97视频在线免费观看| 亚洲激情校园春色| 51色欧美片视频在线观看| 国产成人日日夜夜| 国产精品自拍第一页| 国产精品免费看久久久无码| 日本伊人精品一区二区三区介绍| 国产精品乱人伦一区二区| 日韩在线视频不卡| 性欧美一区二区| 久久久久久久午夜| 国产精品免费视频xxxx| 日韩美一区二区三区| 国产欧美日韩三区| 麻豆国产一区二区| 久久久久久久久久久久久久免费看| 亚洲一区二区在线视频观看| 国产精品国产亚洲精品看不卡| 国产欧美亚洲精品| 久久久久五月天| 亚洲激情电影中文字幕| 国产精品女同一区二区三区| 亚洲第一天堂网| 国产日韩一级片| 欧美黄色一区二区三区| 精品视频免费在线播放| 一级黄色片播放| 中文字幕一区二区三区四区五区六区 | 国产精品一区二区久久久| 久久精品视频在线观看| 亚洲欧美在线免费观看| 精品国产百合女同互慰| 亚洲天堂久久久久久久| 视频精品一区二区| 视频一区二区三区四区五区| 亚洲波多野结衣| 欧美丰满熟妇bbb久久久| www.av蜜桃| 日韩精品aaa| 成人免费性视频| 污污的视频免费| fc2ppv在线播放| 99久久一区二区| 黄一区二区三区| 欧美国产亚洲另类动漫| 欧美日韩在线直播| 在线观看欧美日韩| 久久99久久久久久久噜噜| 国产高清一区视频| 国产午夜福利100集发布| 国产真实乱人偷精品| 91中文字幕在线视频| 色婷婷久久综合中文久久蜜桃av| 国产 日韩 欧美 在线| 国产91绿帽单男绿奴| 99久久综合99久久综合网站| 一区二区三区四区五区视频在线观看 | 欧美久久久久久久久久| 中文字幕免费精品一区| 亚洲综合精品一区二区| 隔壁人妻偷人bd中字| av网在线播放| 久久久国产精品一区二区中文| 亚洲日本青草视频在线怡红院| 欧美一区二区成人| 日韩av日韩在线观看| 99re8这里只有精品| 国产精品理论在线观看| 亚洲国产一区视频| 欧美日韩国产va另类| 日韩在线一区视频| 久久午夜鲁丝片| 国产女主播一区| 中文字幕精品—区二区| 99伊人久久| 国产又大又硬又粗| 国产麻豆视频在线观看| 国产无遮挡一区二区三区毛片日本 | 少妇伦子伦精品无吗| 国产精品一区二区黑人巨大| 国产视频一区二区三区在线观看| 在线免费视频一区二区| 91po在线观看91精品国产性色| 欧美激情国产精品日韩| 国产女无套免费视频| 精品久久久久久中文字幕大豆网| 国产亚洲美女精品久久久| 中文字幕一区二区三区四区五区六区| 邪恶网站在线观看| 亚洲产国偷v产偷v自拍涩爱| 日韩一区在线播放| 国产精品99蜜臀久久不卡二区| gogo亚洲国模私拍人体| 欧美96一区二区免费视频| 欧美日韩免费高清一区色橹橹| 欧美午夜精品久久久久久蜜| 香蕉视频污视频| 老司机午夜免费精品视频| 欧美一区二区三区啪啪| 日韩一区不卡| 亚洲天堂一二三| 精品毛片乱码1区2区3区| 在线观看欧美激情| 国产又爽又黄的视频| 一区二区三区成人| 欧美精品日韩www.p站| 一卡二卡三卡四卡五卡| 免费av网站大全久久| 欧美大片一区二区| 日韩网址在线观看| 国产高清成人在线| 深夜福利日韩在线看| 人妻换人妻a片爽麻豆| 成人av手机在线观看| 99在线视频免费观看|