![]()
新智元報(bào)道
編輯:桃子 艾倫
強(qiáng)化學(xué)習(xí)核心是什么?Karpathy一語道破——環(huán)境。全新開源Environments Hub橫空出世,為強(qiáng)化學(xué)習(xí)訓(xùn)練帶去革命性突破。
強(qiáng)化學(xué)習(xí)時(shí)代,什么最重要?
Karpathy給出了答案,環(huán)境!只有環(huán)境,才能讓LLM真正進(jìn)行交互、執(zhí)行動(dòng)作、觀察結(jié)果。
![]()
如今,一個(gè)開源的環(huán)境中心——Environments Hub正式登場(chǎng)了,它由一家專注于去中心化AI開發(fā)公司Prime Intellect發(fā)布。
![]()
一直以來,RL環(huán)境是割裂的、封閉的,甚至難以共享。
但有且只有環(huán)境,定義了世界、規(guī)則,以及「狀態(tài)—?jiǎng)幼鳌?jiǎng)勵(lì)」的反饋閉環(huán)。
從游戲到編程,再到聊天對(duì)話,它們是AI學(xué)習(xí)發(fā)生的場(chǎng)景。沒有它們,RL只是一套無從著力的算法。

Environments Hub的誕生,能夠讓任何人模擬出各種各樣、高質(zhì)量的環(huán)境,為開源AGI做出貢獻(xiàn)。
AI智能體交互,缺的是環(huán)境
RL環(huán)境,是智能體學(xué)習(xí)的試驗(yàn)場(chǎng)。
回想一下,在預(yù)訓(xùn)練時(shí)代,互聯(lián)網(wǎng)數(shù)據(jù)是核心。LLM主要通過大量多樣,且高質(zhì)量的數(shù)據(jù)來學(xué)習(xí)。
到了監(jiān)督微調(diào)階段,重點(diǎn)變成了「對(duì)話數(shù)據(jù)」。
人們會(huì)雇傭外包團(tuán)隊(duì),來為問題創(chuàng)建答案,類似Stack Overflow、Quora平臺(tái)的模式,但又專為LLM使用場(chǎng)景而設(shè)計(jì)。
如今到了強(qiáng)化學(xué)習(xí)時(shí)代,前兩個(gè)階段不會(huì)消失,但不同的是,環(huán)境成為了重心。
這些環(huán)境,可以用于模型訓(xùn)練,也可用于評(píng)估。不過,問題在于,如何創(chuàng)建出豐富多樣的環(huán)境?
Karpathy回憶道,OpenAI最早的一個(gè)項(xiàng)目Gym,一個(gè)希望用統(tǒng)一框架去構(gòu)建大規(guī)模環(huán)境集合。
![]()
GitHub地址:https://github.com/openai/gym
不過,這都是近十年前,大模型還未興起的項(xiàng)目了。所以,當(dāng)時(shí)的環(huán)境,都是一些簡(jiǎn)單的經(jīng)典控制任務(wù),比如cartpole、ATARI之類的。
而現(xiàn)在,Environments Hub是一個(gè)專門針對(duì)LLM構(gòu)建的版本。
Karpathy激動(dòng)地表示,「這是個(gè)非常棒的努力和想法」。今年初,他還發(fā)文建議過有人應(yīng)該做類似的事情。
![]()
Environments Hub有個(gè)特點(diǎn),一旦框架構(gòu)建完成,原則上社區(qū)和行業(yè)就可以在不同領(lǐng)域并行開發(fā)。
而且,環(huán)境和智能體交互的方向,是下一個(gè)未來。

大廠斥資幾百萬,搞出圍墻花園
為什么需要打造一個(gè)Environments Hub呢?
目前,多數(shù)強(qiáng)化學(xué)習(xí)環(huán)境是由初創(chuàng)公司構(gòu)建,并將其出售給少數(shù)幾家不對(duì)外開放的大型實(shí)驗(yàn)室。
如果高質(zhì)量的學(xué)習(xí)環(huán)境一直保持封閉且昂貴,開源模型將進(jìn)一步落后于閉源模型。
要想扭轉(zhuǎn)這種局勢(shì),需要有一個(gè)強(qiáng)大的開源學(xué)習(xí)環(huán)境和訓(xùn)練工具生態(tài)系統(tǒng)能崛起。
![]()
Environments Hub正是承載著這個(gè)使命應(yīng)運(yùn)而生,旨在讓下一波初創(chuàng)公司和AI的發(fā)展能夠構(gòu)建于開放的基礎(chǔ)設(shè)施和開源模型之上。
核心功能,一鍵生成評(píng)估報(bào)告
總結(jié)來說,Environments Hub具備了以下功能亮點(diǎn):
通過Hub或CLI(命令行)拉取、推送并管理環(huán)境
生成跨模型的評(píng)測(cè)報(bào)告
與verifiers框架深度集成
prime-rl訓(xùn)練器原生支持環(huán)境
提供用于代碼執(zhí)行的原生沙箱支持
你可以創(chuàng)建、管理和共享用于強(qiáng)化學(xué)習(xí)及評(píng)估的環(huán)境:
![]()
可以為不同模型創(chuàng)建和瀏覽環(huán)境評(píng)估報(bào)告:
![]()
可擴(kuò)展訓(xùn)練器prime-rl原生支持這些環(huán)境:
![]()
還有沙盒功能,可直接與Verifier Environments對(duì)接,以實(shí)現(xiàn)安全的代碼執(zhí)行。
![]()
如果還有你需求的功能沒有滿足,你也可以親自作為該開源項(xiàng)目開發(fā)者去貢獻(xiàn)代碼。
下一步:全棧式開源AGI基礎(chǔ)設(shè)施
過去幾個(gè)月中,Environments Hub將基于Agent的強(qiáng)化學(xué)習(xí)訓(xùn)練擴(kuò)展到規(guī)模最大的開源模型,并取得了顯著進(jìn)展。
隨著眾多眾包環(huán)境被引入INTELLECT-3,訓(xùn)練出一個(gè)完全開放、最先進(jìn)的Agent模型將成為可能。
除此之外,Environments Hub關(guān)心的重點(diǎn)是,讓人人都能用上這套基礎(chǔ)設(shè)施,使研究人員和初創(chuàng)公司都能為自己的任務(wù)訓(xùn)練模型、集成工具、運(yùn)行強(qiáng)化微調(diào),以及優(yōu)化Agent支撐框架。
prime-rl的整個(gè)技術(shù)棧都是開源的,正在擴(kuò)展到全球的計(jì)算資源上無縫運(yùn)行。
強(qiáng)化學(xué)習(xí)不僅是通往AGI的必經(jīng)之路,也是構(gòu)建AI原生產(chǎn)品的基礎(chǔ)。
未來最成功的初創(chuàng)公司,將是那些能根據(jù)自身需求,創(chuàng)造出差異化環(huán)境的公司。
![]()
如今,最大的障礙并非獲取強(qiáng)大模型,而在于大規(guī)模訓(xùn)練和部署它們所需的基礎(chǔ)設(shè)施及成本。
通過降低這一門檻,Environments Hub旨在為所有AI構(gòu)建者提供廉價(jià)、無縫的計(jì)算、推理和訓(xùn)練資源,以及全套的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。
參考資料:
https://www.primeintellect.ai/blog/environments
https://x.com/karpathy/status/1960803117689397543
![]()





京公網(wǎng)安備 11011402013531號(hào)