Meta萬引強化學習大佬跑路！用小扎原話作為離別寄語，扎心了

IP屬地中國·北京 編輯：顧雨柔量子位 時間：2025-08-26 14:20:49

小扎在這頭瘋狂挖人，結果家里的老員工紛紛跑路了？？
最新消息，meta萬引強化學習大佬Rishabh Agarwal即將離職，還留下了一篇讓人浮想聯翩的小作文：
這是我在meta的最后一周。決定不加入新的超級智能實驗室并不容易，畢竟那里人才濟濟、算力爆棚。但在Google Brain、DeepMind和meta度過了7年半之后，我更想冒險去嘗試一條完全不同的路。meta組建超級智能團隊的想法非常引人注目，但我最終選擇聽從扎克伯格的建議：“在這個瞬息萬變的世界里，最大的風險就是不去冒險。”

雖然表面上看起來雙方是“和平分手”，但網友們還是從中嗅出了一絲不同尋常的味道：
把小扎的原話甩回他自己臉上，這操作絕了，瑞思拜！

十億可以為你買一棟房子，但買不到你的夢想。

不過猜測也好，吐槽也罷。對于Rishabh Agarwal的離職，谷歌、meta的同事們都清一色地送上了祝福，而且還順帶回顧了他在工作期間作出的貢獻。
據了解，他參與了谷歌Gemini 1.5、Gemma 2以及meta推理模型后訓練方面的重要工作，2021年還以一篇RL算法評估論文拿下了NeurIPS杰出論文獎。

所以，Rishabh Agarwals是誰？他的離職又為何在這個節骨眼掀起波瀾？
曾被Hinton勸退“不要做強化學習”，下一站未定
Rishabh Agarwals，一直以來從事強化學習和推理研究，谷歌學術論文被上萬次引用，h-index也有34。

本科畢業于印度理工學院孟買分校計算機科學與工程專業，成績屬于系前幾名那種。
2018年，他以AI Resident的身份加入Google Brain多倫多團隊，在Geoffrey Hinton團隊里工作了一年。
頗具戲劇性的是，Hinton還曾建議他“不要做強化學習（RL）”，不過話鋒一轉，老爺子也留有余地——應該做自己認為最好的事情（畢竟他本人當年做的事也不被所有人看好）。
于是，Rishabh Agarwals義無反顧地投身強化學習，并決定繼續攻讀博士學位。
第二年，他就前往蒙特利爾的Mila研究所申請PhD，由于和面試官之一Aaron Courville（和Bengio等人合著了《深度學習》這本經典教材）在強化學習領域的研究方向“完全相同”，當場就被邀請并加入其團隊。
接下來的四年時間，他在Aaron Courvilleh和Marc Bellemare兩位頂尖導師的指導下繼續深耕強化學習，同時還保留著在Google Brain的全職工作。
直到2023年，Marc Bellemare發了一條提前慶祝他通過博士畢業答辯的推文，連谷歌首席科學家Jeff Dean這樣的大佬也趕來祝賀。

在這之后，他順理成章地加入蒙特利爾谷歌DeepMind團隊，擔任研究科學家，同時在麥吉爾大學做兼職教授。
而在谷歌工作期間，他參與了Gemini 1.5（當時號稱最強多模態、上下文突破100萬）、Gemma 2（新一代輕量級開源模型）、Gemma 3等重要模型的發布工作。
2021年，他還發表了論文《Deep Reinforcement Learning at the Edge of the Statistical Precipice》，一舉斬獲NeurIPS杰出論文獎。
簡單來說，這篇論文分析了深度強化學習中的統計不穩定性問題，指出在有限實驗下評估算法可能產生誤導性結果。由于系統性揭示了RL中的方差問題與過擬合風險，被認為是評價RL算法的里程碑工作。

后來他才從谷歌跑去了meta，并著手推進meta推理模型的后訓練工作，具體包括：
用RL規模化訓練，把8B稠密模型推到接近DeepSeek-R1的水平；在訓練中途引入合成數據，為RL提供熱啟動；提出更高效的on-policy蒸餾方法。
如今隨著Rishabh Agarwals的離開，網友們也紛紛替meta惋惜又損失了一員大將。

目前Rishabh Agarwals的下一站并未明確，不過按照他“想要嘗試完全不同的一條路”的說法，人們推測大概率會是創業。
meta老員工開始出逃了？
其實不止Rishabh Agarwals，幾乎同一時間，一位在meta工作了12年的老員工也宣布離職了。
而且下一站還是Anthropic的推理團隊（屬于直接擁抱曾經的競爭對手了）。

有一說一，meta這波漸起的老員工出逃趨勢并不出人意料。
此前就有消息稱，meta新老員工之間因薪酬待遇懸殊而產生摩擦，其中一些研究人員甚至威脅要辭職。
合理推測，招聘熱潮帶來的內部矛盾，可能是導致這些資深員工選擇離開的重要原因之一。
嗯，小扎這波也屬于一邊蓄水，一邊開閘了（doge）。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

市值超100億，李澤湘在老家湖南干出一個IPO

用時31個月：ChatGPT移動端全球累計吸金突破30億美元大關，跑贏TikTok與多款流媒體應用

150分鐘，有關AGI的一切，小鵬、摩爾線程、沐曦給出答案

賈躍亭的法拉第未來再度交付一輛FF 91 車主為ZEVO高管

火山引擎回應云大廠競爭：云處于重大變革期

黑芝麻智能：快速增長背后，全維度競爭

全站最新

市值超100億，李澤湘在老家湖南干出一個IPO

用時31個月：ChatGPT移動端全球累計吸金突破30億美元大關，跑贏TikTok與多款流媒體應用

150分鐘，有關AGI的一切，小鵬、摩爾線程、沐曦給出答案

賈躍亭的法拉第未來再度交付一輛FF 91 車主為ZEVO高管

熱門推薦

市值超100億，李澤湘在老家湖南干出一個IPO

用時31個月：ChatGPT移動端全球累計吸金突破30億美元大關，跑贏TikTok與多款流媒體應用

150分鐘，有關AGI的一切，小鵬、摩爾線程、沐曦給出答案

賈躍亭的法拉第未來再度交付一輛FF 91 車主為ZEVO高管

火山引擎回應云大廠競爭：云處于重大變革期

大眾汽車歡迎歐盟放寬2035年汽車排放規則之舉

?捷達汽車科技公司成立，地方國資產業基金持股逾26%

中國成為《瘋狂動物城2》全球最大票倉

華為系具身初創企業「具腦磐石」與紐泰格科技集團達成戰略合作

寧德時代等成立國聯芯材科技公司# 注冊資本約1.7億

銀河通用機器人完成超3億美元新一輪融資

VITURE Pro在德國被禁售

康師傅飲品投資公司董事長變更

2025國內「年度字詞」為「深度求索（DeepSeek）」

奇瑞汽車等成立新產業投資合伙企業