Karpathy盛贊「環(huán)境中心」！AGI最后一塊拼圖開源，大廠豪擲百萬鎖死

IP屬地中國·北京 編輯：楊凌霄新智元 時(shí)間：2025-08-29 10:31:31

新智元報(bào)道
編輯：桃子艾倫
強(qiáng)化學(xué)習(xí)核心是什么？Karpathy一語道破——環(huán)境。全新開源Environments Hub橫空出世，為強(qiáng)化學(xué)習(xí)訓(xùn)練帶去革命性突破。
強(qiáng)化學(xué)習(xí)時(shí)代，什么最重要？
Karpathy給出了答案，環(huán)境！只有環(huán)境，才能讓LLM真正進(jìn)行交互、執(zhí)行動(dòng)作、觀察結(jié)果。

如今，一個(gè)開源的環(huán)境中心——Environments Hub正式登場(chǎng)了，它由一家專注于去中心化AI開發(fā)公司Prime Intellect發(fā)布。

一直以來，RL環(huán)境是割裂的、封閉的，甚至難以共享。
但有且只有環(huán)境，定義了世界、規(guī)則，以及「狀態(tài)—?jiǎng)幼鳌?jiǎng)勵(lì)」的反饋閉環(huán)。
從游戲到編程，再到聊天對(duì)話，它們是AI學(xué)習(xí)發(fā)生的場(chǎng)景。沒有它們，RL只是一套無從著力的算法。

Environments Hub的誕生，能夠讓任何人模擬出各種各樣、高質(zhì)量的環(huán)境，為開源AGI做出貢獻(xiàn)。
AI智能體交互，缺的是環(huán)境
RL環(huán)境，是智能體學(xué)習(xí)的試驗(yàn)場(chǎng)。
回想一下，在預(yù)訓(xùn)練時(shí)代，互聯(lián)網(wǎng)數(shù)據(jù)是核心。LLM主要通過大量多樣，且高質(zhì)量的數(shù)據(jù)來學(xué)習(xí)。
到了監(jiān)督微調(diào)階段，重點(diǎn)變成了「對(duì)話數(shù)據(jù)」。
人們會(huì)雇傭外包團(tuán)隊(duì)，來為問題創(chuàng)建答案，類似Stack Overflow、Quora平臺(tái)的模式，但又專為LLM使用場(chǎng)景而設(shè)計(jì)。
如今到了強(qiáng)化學(xué)習(xí)時(shí)代，前兩個(gè)階段不會(huì)消失，但不同的是，環(huán)境成為了重心。
這些環(huán)境，可以用于模型訓(xùn)練，也可用于評(píng)估。不過，問題在于，如何創(chuàng)建出豐富多樣的環(huán)境？
Karpathy回憶道，OpenAI最早的一個(gè)項(xiàng)目Gym，一個(gè)希望用統(tǒng)一框架去構(gòu)建大規(guī)模環(huán)境集合。

GitHub地址：https://github.com/openai/gym
不過，這都是近十年前，大模型還未興起的項(xiàng)目了。所以，當(dāng)時(shí)的環(huán)境，都是一些簡(jiǎn)單的經(jīng)典控制任務(wù)，比如cartpole、ATARI之類的。
而現(xiàn)在，Environments Hub是一個(gè)專門針對(duì)LLM構(gòu)建的版本。
Karpathy激動(dòng)地表示，「這是個(gè)非常棒的努力和想法」。今年初，他還發(fā)文建議過有人應(yīng)該做類似的事情。

Environments Hub有個(gè)特點(diǎn)，一旦框架構(gòu)建完成，原則上社區(qū)和行業(yè)就可以在不同領(lǐng)域并行開發(fā)。
而且，環(huán)境和智能體交互的方向，是下一個(gè)未來。

大廠斥資幾百萬，搞出圍墻花園
為什么需要打造一個(gè)Environments Hub呢？
目前，多數(shù)強(qiáng)化學(xué)習(xí)環(huán)境是由初創(chuàng)公司構(gòu)建，并將其出售給少數(shù)幾家不對(duì)外開放的大型實(shí)驗(yàn)室。
如果高質(zhì)量的學(xué)習(xí)環(huán)境一直保持封閉且昂貴，開源模型將進(jìn)一步落后于閉源模型。
要想扭轉(zhuǎn)這種局勢(shì)，需要有一個(gè)強(qiáng)大的開源學(xué)習(xí)環(huán)境和訓(xùn)練工具生態(tài)系統(tǒng)能崛起。

Environments Hub正是承載著這個(gè)使命應(yīng)運(yùn)而生，旨在讓下一波初創(chuàng)公司和AI的發(fā)展能夠構(gòu)建于開放的基礎(chǔ)設(shè)施和開源模型之上。
核心功能，一鍵生成評(píng)估報(bào)告
總結(jié)來說，Environments Hub具備了以下功能亮點(diǎn)：
通過Hub或CLI（命令行）拉取、推送并管理環(huán)境
生成跨模型的評(píng)測(cè)報(bào)告
與verifiers框架深度集成
prime-rl訓(xùn)練器原生支持環(huán)境
提供用于代碼執(zhí)行的原生沙箱支持
你可以創(chuàng)建、管理和共享用于強(qiáng)化學(xué)習(xí)及評(píng)估的環(huán)境：

可以為不同模型創(chuàng)建和瀏覽環(huán)境評(píng)估報(bào)告：

可擴(kuò)展訓(xùn)練器prime-rl原生支持這些環(huán)境：

還有沙盒功能，可直接與Verifier Environments對(duì)接，以實(shí)現(xiàn)安全的代碼執(zhí)行。

如果還有你需求的功能沒有滿足，你也可以親自作為該開源項(xiàng)目開發(fā)者去貢獻(xiàn)代碼。
下一步：全棧式開源AGI基礎(chǔ)設(shè)施
過去幾個(gè)月中，Environments Hub將基于Agent的強(qiáng)化學(xué)習(xí)訓(xùn)練擴(kuò)展到規(guī)模最大的開源模型，并取得了顯著進(jìn)展。
隨著眾多眾包環(huán)境被引入INTELLECT-3，訓(xùn)練出一個(gè)完全開放、最先進(jìn)的Agent模型將成為可能。
除此之外，Environments Hub關(guān)心的重點(diǎn)是，讓人人都能用上這套基礎(chǔ)設(shè)施，使研究人員和初創(chuàng)公司都能為自己的任務(wù)訓(xùn)練模型、集成工具、運(yùn)行強(qiáng)化微調(diào)，以及優(yōu)化Agent支撐框架。
prime-rl的整個(gè)技術(shù)棧都是開源的，正在擴(kuò)展到全球的計(jì)算資源上無縫運(yùn)行。
強(qiáng)化學(xué)習(xí)不僅是通往AGI的必經(jīng)之路，也是構(gòu)建AI原生產(chǎn)品的基礎(chǔ)。
未來最成功的初創(chuàng)公司，將是那些能根據(jù)自身需求，創(chuàng)造出差異化環(huán)境的公司。

如今，最大的障礙并非獲取強(qiáng)大模型，而在于大規(guī)模訓(xùn)練和部署它們所需的基礎(chǔ)設(shè)施及成本。
通過降低這一門檻，Environments Hub旨在為所有AI構(gòu)建者提供廉價(jià)、無縫的計(jì)算、推理和訓(xùn)練資源，以及全套的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。
參考資料：
https://www.primeintellect.ai/blog/environments
https://x.com/karpathy/status/1960803117689397543

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

117家工作站，378場(chǎng)活動(dòng)、10萬+人次！這份年度科創(chuàng)科普“答卷”亮了

驟降4000米　“星鏈”一顆衛(wèi)星或爆炸失聯(lián)

菜鳥九識(shí)聯(lián)手發(fā)力萬億城配市場(chǎng)：從“萬元機(jī)”看無人車的普及之戰(zhàn)

Pixel用戶集體吐槽：谷歌強(qiáng)塞AI功能破壞使用體驗(yàn)

【量子城市】聚勢(shì)未來：上海復(fù)興島舉辦全球創(chuàng)客島創(chuàng)新孵化與量子城市空間智能建設(shè)交流研討

首篇，系統(tǒng)盤點(diǎn)擴(kuò)散模型高危漏洞！看懂攻擊方式和防御體系

全站最新

117家工作站，378場(chǎng)活動(dòng)、10萬+人次！這份年度科創(chuàng)科普“答卷”亮了

驟降4000米　“星鏈”一顆衛(wèi)星或爆炸失聯(lián)

菜鳥九識(shí)聯(lián)手發(fā)力萬億城配市場(chǎng)：從“萬元機(jī)”看無人車的普及之戰(zhàn)

Pixel用戶集體吐槽：谷歌強(qiáng)塞AI功能破壞使用體驗(yàn)

熱門推薦

2025第六屆鯨潮獎(jiǎng)?lì)C獎(jiǎng)盛典舉辦，評(píng)選結(jié)果重磅揭曉！

2025鯨V獎(jiǎng)?lì)C獎(jiǎng)盛典落地，評(píng)選結(jié)果重磅公布！

2025全年動(dòng)畫電影票房突破250億

117家工作站，378場(chǎng)活動(dòng)、10萬+人次！這份年度科創(chuàng)科普“答卷”亮了

驟降4000米　“星鏈”一顆衛(wèi)星或爆炸失聯(lián)

菜鳥九識(shí)聯(lián)手發(fā)力萬億城配市場(chǎng)：從“萬元機(jī)”看無人車的普及之戰(zhàn)

Pixel用戶集體吐槽：谷歌強(qiáng)塞AI功能破壞使用體驗(yàn)

【量子城市】聚勢(shì)未來：上海復(fù)興島舉辦全球創(chuàng)客島創(chuàng)新孵化與量子城市空間智能建設(shè)交流研討

首篇，系統(tǒng)盤點(diǎn)擴(kuò)散模型高危漏洞！看懂攻擊方式和防御體系

谷歌AI逆襲背后的頭號(hào)功臣

業(yè)界：以生態(tài)之力跨越“達(dá)爾文之海” 推動(dòng)科研成果加速應(yīng)用

【特稿】美國簽證審查嚴(yán)重拖長　谷歌和蘋果建議外籍員工“別出美國”

俞敏洪自嘲成為“道歉哥”：一天到晚在道歉

德國法院裁決亞馬遜不得強(qiáng)迫Prime Video會(huì)員看廣告

AI寫的歌、畫的圖，版權(quán)算誰的？

首頁

資訊

財(cái)經(jīng)號(hào)

智能車

專題

電商資訊

人物資訊

滾動(dòng)資訊

首頁

新科技

新金融

新零售

智能車

房地產(chǎn)

科技探索

人物資訊

網(wǎng)絡(luò)游戲

人工智能

Karpathy盛贊「環(huán)境中心」！AGI最后一塊拼圖開源，大廠豪擲百萬鎖死