新智元報道
編輯:KingHZ
AGI不是未來,它已到來。十年前,他嗤之以鼻;如今,他賭上職業生涯。meta科學家畢樹超揭秘AI進化真突破:更好更快造數據。 在哈佛大學的演講,他還揭秘下一個萬億級AI機會。
今年6月,華人AI研究員畢樹超在哥倫比亞大學和哈佛大學發表演講,講述了在過去十年中,他如何從懷疑AGI逐漸轉變為對AGI的日漸癡迷。
最近,他分享了在哈佛大學的演講內容。
兩次演講主題一致,內容類似,關于硅基智能的過去、開放問題和未來。
從OpenAI離職后,畢樹超加入了meta的超級智能實驗室,他已經分享過哥倫比亞大學的演講:
有趣的是,在哈佛演講最后,有人提了一個問題:
如果您在「AI原生交互」領域創業,您會押注于哪些多模態基礎技術?未來兩年最大的機遇在哪里?
確切的答案,畢樹超承認自己不知道,即便知道了也不會公之于眾。
不過他還是回顧了歷史,指出了兩個歷史性突破:
(1)GUI(圖形用戶界面),催生了個人電腦;
(2)多點觸控,催生了移動設備。
如果有人能基于人工智能找到下一個人機交互方式,那將是一家價值萬億美元的公司。而且他非常肯定地給出了寶貴的洞見:
語音和視覺將成為其中的一部分。它必須非常接近人類自然的交互方式。
AI狂飆史
首先,他介紹了從2012年AI日新月異的進步,拋出一條清晰而震撼的「AI進化時間線」——十年,人工智能完成了一次從蹣跚學步到奔跑躍遷的蛻變。
2012年,AlexNet橫空出世,「大數據+算力」一擊擊碎了數十年手工特征工程的神話。
2013年,Word2Vec出現,引爆「萬物皆向量」革命。
單詞成了可以計算距離的向量,語義之間有了坐標系。
推薦系統、搜索引擎瞬間換了玩法——YouTube的算法,也從此學會了更懂你。
2015年,兩個名字寫進了深度學習的骨骼——Adam優化器和ResNet殘差網絡。
前者像是給訓練提速的渦輪,讓模型跨數據集穩定奔跑;
后者則打通了「神經網絡的任督二脈」,讓深度從十幾層飆到上百層不再是奢望。
2017年,Transformer來了。它像一座跨領域的超級樞紐,不僅顛覆了NLP,更成了多模態模型的核心骨架。從此,機器開始學會「長篇大論」,并且「舉一反三」。
2019年,Rich Sutton總結了《苦澀的教訓》:利用算力,一般的方法終將壓倒性勝過人工工程。
隨之而來的,是被畢樹超反復強調的——Scaling Law。
更多數據、更多參數、更多算力,性能就能穩步上升。而且,不只是穩步。
當增長跨過某個臨界點,模型會突然「開竅」:會推理、會診斷、會用你意想不到的方式解決問題。
這不是魔法,而是數學與算力堆疊出的質變。
過去十年,AI像嬰兒學會了走路;未來十年,它可能會跑得比任何人都快。
強化學習:DeepMind的時代
歷史回顧的第二部分,畢樹超把視線從自監督學習轉向強化學習(RL),故事同樣驚心動魄。
2015年,DeepMind推出DQN,AI第一次能從原始像素里學會玩街機游戲。沒有規則輸入,沒有人類提示,靠獎勵信號驅動,正如孩子在不斷嘗試中學會騎車一樣。。
接著,世界震驚于AlphaGo。先從人類棋譜起步,再靠自我對弈瘋狂磨煉,最終擊敗圍棋世界冠軍。它的升級版AlphaGo Zero更狠——徹底拋開人類經驗,從零起跑,卻跑進了人類棋史的巔峰。
那被稱為「神之一手」的第37手,成了載入史冊的AI時刻。
AlphaZero則把這一套搬到國際象棋和將棋,全面碾壓頂尖棋手。而在棋盤之外,OpenAI將強化學習的戰場搬到3D即時戰略——Dota 2。最終,他們的AI團隊擊敗了世界級職業戰隊。
看似風光無限,但畢樹超直言——這些都是「單項冠軍」。
它們在特定任務上超人,卻無法遷移到更多領域。圍棋高手不會自動變成醫生,AI亦然。
轉折出現在預訓練+人類反饋強化學習(RLHF)的結合。
ChatGPT就是這樣煉成的:
先讓模型吸收海量知識,再用人類偏好做微調,讓它不僅聰明,還更懂交流、更貼近人類思維。
結果?一場爆發。原本低調的研究預覽,迅速變成全球現象級產品,每周吸引5億+用戶。
畢樹超提醒,強化學習是AI可無限擴展的兩條路徑之一(另一條是自監督學習)。既然預訓練的規模已被推到極限,下一步,就是在強化學習上同樣拉滿算力。
開放問題
數據決定智能
當話題進入演講的第二大部分,畢樹超的語氣陡然凝重——這一次,他談的不是AI的輝煌戰績,而是擋在前面的瓶頸。
他指出了關鍵問題:「別以為只要有更大的模型和更多的算力,AI就能無限變強。有一樣東西,比算力更稀缺——高質量數據。」
數據紅利,正在消耗殆盡
在過去十年里,我們喂給AI的是人類幾千年來積累的知識寶庫:書籍、論文、代碼、圖片、視頻、網頁……這些數據像肥沃的土壤,讓模型在短短幾年長成參天大樹。
但畢樹超警告,這塊土壤正在快速流失。
高質量、結構化、真實、有深度的信息,正一點點耗盡。等到庫存見底,光有更大的「樹」和更強的「陽光」(算力),也長不出新枝。
他直言,這是一個全行業即將面對的「隱形天花板」。
突破口I:讓AI自己造數據
解決之道?
畢樹超拋出第一個突破口——讓AI像人類一樣,通過與環境互動生成新數據。
人類的學習過程不是坐在教室里背完所有書,而是邊做邊學。我們在嘗試、失敗、修正中獲得經驗,再把這些經驗傳遞給別人。
「為什么不能讓AI也這樣做?」他問。
強化學習中的自我博弈(self-play)已經證明了這一思路:
AlphaGo Zero就是在與自己下棋的過程中,不斷創造并吸收新局面,從而突破人類經驗的邊界。
如果AI可以在虛擬環境、模擬實驗、甚至真實世界的機器人平臺上持續生成并驗證數據,它就能擺脫「吃老本」的命運。
「用算力換數據——這是我們唯一能讓曲線繼續向上的方法之一。」畢樹超強調。
突破口II:讓學習更高效
第二個突破口,是數據效率。
人類只需看幾局棋,就能學會規則并進行策略思考;而大模型往往要消耗百萬、千萬級的樣本,才能掌握類似的技能。
原因何在?
畢樹超給出兩點:
泛化能力——人類會遷移推理模式。學會數獨的邏輯,可能幫你下棋時提前幾步預判。
學習粒度——人類學習的是「概念」,而不是逐字逐句的「下一個詞」。同一個意思有成千上萬種說法,人類不需要全部記住,而模型卻在消耗大量資源去擬合這些表述。
「這就像你要學游泳,不是去背所有水花的形狀,而是直接掌握漂浮和劃水的原理。」他形象地說。
如果模型能直接學習概念和關系,而非表面符號,數據需求將驟降,學習速度也會飛躍。
安全與對齊,難度最高的關口
即便解決了數據問題,畢樹超提醒,還有另一道高墻——安全與對齊。
他將其分為三層:
內容安全:避免生成有害信息。
濫用防護:防止被惡意利用。
內在對齊:確保AI的目標與人類價值觀一致。
前兩層已有較成熟的技術與策略,但第三層,才是真正的硬骨頭。
未來:AI無處不在
當演講進入展望部分,畢樹超開始描繪一幅氣勢恢宏的未來圖景——AI將全面滲透社會的每個角落,重塑我們的生活、工作與認知。
智能體:AI時代的手機
畢樹超預言,推理能力的進步將讓AIAgent像空氣一樣無處不在。
它們會在辦公室幫你做研究、寫報告,在家中幫你管理日程、照顧孩子的學習。
「想象一下,身邊有一個隨時待命的超級助理,永不疲倦,從不忘事。」
這不是奢侈品,而會像智能手機一樣普及。
AI for Science:顛覆科研范式
他將科研形容為「在一片浩瀚的可能性海洋中尋找珍珠」。
而AI的搜索能力,將讓我們一次網下去,就撈起整串珍珠。
藥物研發不再耗費十年,可能幾個月就能找到候選分子;
材料科學可以在模擬中直接篩出最佳配方;
像AlphaFold這樣的突破將成為常態。
畢樹超甚至說,科學家未來可能會有屬于他們的「AlphaGo時刻」——突然看到AI給出一個人類幾代人都沒想到的解法。
AI移掉兩座大山:教育與醫療
教育領域的變革同樣驚人。
AI可以讓任何人無障礙進入新領域,也可以為頂尖學者量身打造最優學習路線。
「也許未來,一個人5年內可以完成10個博士課題,」畢樹超半開玩笑地說,「前提是他真的愿意學。」
這不僅意味著效率,更意味著教育公平的真正可能——偏遠地區的孩子,也能享受世界頂級的教學資源。
AI讓好醫生觸手可及。
他相信,AI能為更多人帶來高質量的醫療服務,尤其是在醫生資源匱乏的地區。
「很多人的第一位好醫生,可能會是AI。」
具身智能:人類伸向宇宙的觸角
畢樹超將目光投向更遠——具身智能(Embodied AI)。它不僅是機器人在倉庫里搬貨,更是能進入深海、火山、甚至外太空的探索者。
在那些人類無法生存的地方,它們可以代替我們采集數據、建造設施,甚至開啟跨星際的「殖民」嘗試。
「人類的觸角,會通過它們伸向整個宇宙。」
演講人簡介
目前,畢樹超是meta超智能實驗室研究員,RL/后訓練/智能體;之前,在OpenAI研究多模態和RL。
他聯合創建了GPT-4o的實時語音界面,主導了OpenAI的多模態后訓練。
他的工作讓人工智能能夠像人類一樣說話——富有情感、自然且即時。
可以把他看作是未來 AGI 助手的聲音設計師。
他也曾經在谷歌從事數據科學。
他是浙江大學理學學士(竺院工高班),加州伯克利大學理學博士,大數據資深從業者與實踐者,專注大規模機器學習和統計模型在互聯網與金融領域的應用。





京公網安備 11011402013531號