小扎在這頭瘋狂挖人,結果家里的老員工紛紛跑路了??
最新消息,meta萬引強化學習大佬Rishabh Agarwal即將離職,還留下了一篇讓人浮想聯翩的小作文:
這是我在meta的最后一周。決定不加入新的超級智能實驗室并不容易,畢竟那里人才濟濟、算力爆棚。但在Google Brain、DeepMind和meta度過了7年半之后,我更想冒險去嘗試一條完全不同的路。meta組建超級智能團隊的想法非常引人注目,但我最終選擇聽從扎克伯格的建議:“在這個瞬息萬變的世界里,最大的風險就是不去冒險。”
![]()
雖然表面上看起來雙方是“和平分手”,但網友們還是從中嗅出了一絲不同尋常的味道:
把小扎的原話甩回他自己臉上,這操作絕了,瑞思拜!
![]()
十億可以為你買一棟房子,但買不到你的夢想。
![]()
不過猜測也好,吐槽也罷。對于Rishabh Agarwal的離職,谷歌、meta的同事們都清一色地送上了祝福,而且還順帶回顧了他在工作期間作出的貢獻。
據了解,他參與了谷歌Gemini 1.5、Gemma 2以及meta推理模型后訓練方面的重要工作,2021年還以一篇RL算法評估論文拿下了NeurIPS杰出論文獎。
![]()
所以,Rishabh Agarwals是誰?他的離職又為何在這個節骨眼掀起波瀾?
曾被Hinton勸退“不要做強化學習”,下一站未定
Rishabh Agarwals,一直以來從事強化學習和推理研究,谷歌學術論文被上萬次引用,h-index也有34。
![]()
本科畢業于印度理工學院孟買分校計算機科學與工程專業,成績屬于系前幾名那種。
2018年,他以AI Resident的身份加入Google Brain多倫多團隊,在Geoffrey Hinton團隊里工作了一年。
頗具戲劇性的是,Hinton還曾建議他“不要做強化學習(RL)”,不過話鋒一轉,老爺子也留有余地——應該做自己認為最好的事情(畢竟他本人當年做的事也不被所有人看好)。
于是,Rishabh Agarwals義無反顧地投身強化學習,并決定繼續攻讀博士學位。
第二年,他就前往蒙特利爾的Mila研究所申請PhD,由于和面試官之一Aaron Courville(和Bengio等人合著了《深度學習》這本經典教材)在強化學習領域的研究方向“完全相同”,當場就被邀請并加入其團隊。
接下來的四年時間,他在Aaron Courvilleh和Marc Bellemare兩位頂尖導師的指導下繼續深耕強化學習,同時還保留著在Google Brain的全職工作。
直到2023年,Marc Bellemare發了一條提前慶祝他通過博士畢業答辯的推文,連谷歌首席科學家Jeff Dean這樣的大佬也趕來祝賀。
![]()
在這之后,他順理成章地加入蒙特利爾谷歌DeepMind團隊,擔任研究科學家,同時在麥吉爾大學做兼職教授。
而在谷歌工作期間,他參與了Gemini 1.5(當時號稱最強多模態、上下文突破100萬)、Gemma 2(新一代輕量級開源模型)、Gemma 3等重要模型的發布工作。
2021年,他還發表了論文《Deep Reinforcement Learning at the Edge of the Statistical Precipice》,一舉斬獲NeurIPS杰出論文獎。
簡單來說,這篇論文分析了深度強化學習中的統計不穩定性問題,指出在有限實驗下評估算法可能產生誤導性結果。由于系統性揭示了RL中的方差問題與過擬合風險,被認為是評價RL算法的里程碑工作。
![]()
后來他才從谷歌跑去了meta,并著手推進meta推理模型的后訓練工作,具體包括:
用RL規模化訓練,把8B稠密模型推到接近DeepSeek-R1的水平;在訓練中途引入合成數據,為RL提供熱啟動;提出更高效的on-policy蒸餾方法。
如今隨著Rishabh Agarwals的離開,網友們也紛紛替meta惋惜又損失了一員大將。
![]()
目前Rishabh Agarwals的下一站并未明確,不過按照他“想要嘗試完全不同的一條路”的說法,人們推測大概率會是創業。
meta老員工開始出逃了?
其實不止Rishabh Agarwals,幾乎同一時間,一位在meta工作了12年的老員工也宣布離職了。
而且下一站還是Anthropic的推理團隊(屬于直接擁抱曾經的競爭對手了)。
![]()
有一說一,meta這波漸起的老員工出逃趨勢并不出人意料。
此前就有消息稱,meta新老員工之間因薪酬待遇懸殊而產生摩擦,其中一些研究人員甚至威脅要辭職。
合理推測,招聘熱潮帶來的內部矛盾,可能是導致這些資深員工選擇離開的重要原因之一。
嗯,小扎這波也屬于一邊蓄水,一邊開閘了(doge)。





京公網安備 11011402013531號