文|富充
編輯|蘇建勛
無論是在學校的科研中,還是在與螞蟻集團這樣大公司的合作項目里,吳翼都希望他的團隊能保持創業心態:不怕踩坑,快速迭代。
作為清華大學交叉信息學院助理教授,AReaL項目負責人,吳翼聚焦強化學習算法和AI應用創新。其清華團隊和螞蟻研究院一起于2025年5月開源了首個異步強化學習訓練框架AReaL-lite,能顯著提升AI訓練效率,減少GPU的浪費。
作為90后的技術負責人,吳翼要求團隊“在試錯中成長”。他現在最不喜歡的借口就是“沒有資源,所以工作沒法做”,因為從0到1的本質,正是創造資源。
今年9月的外灘大會上,吳翼闡述的產品觀也體現了這一點:做出來就趕緊發布,即使市場反饋不好,也要知道問題在哪里并做出相應改善,不要等待一個完美開局。
這份對創新的體悟,源于吳翼此前的創業經歷。2023年,他的團隊創辦了基于強化學習的AI Agent公司邊塞科技,這也是AReaL的前身。
因在AI領域相似的背景與研究經歷,吳翼與星動紀元創始人陳建宇、千尋智能聯創高陽、星海圖首席科學家許華哲三位留美AI學者并稱為“伯克利四子”。
鮮為人知的是,吳翼是四人中最早決定回國的,也正是他的建議與推動,促成了其他三位的歸來。
吳翼喜歡做有開創性的事情。在清華,他常告誡學生“創新就是要到無人區去”。他堅信,AI創新不能靠多點布局“賭一把”,而是要源于深度的思考與長期的堅持。
他對AI的未來有獨特判斷:智能體必將能理解人類的模糊意圖,完成長程任務,并最終從數字世界走向物理世界,成為具身智能的“大腦”。
今年WAIC上的演講中,他舉例描述,未來只需對機器人說“整理一下房間”,它便能花上數小時,妥善完成。
對于這個目標,吳翼認為,自己正在從事的強化學習訓練方法,將是大幅提升AI的智能水平的關鍵。
因為強化學習的訓練的特點是讓AI在實踐中自主學習,并培養出探索的能力。而之前的監督學習,需要人一直告訴AI如何工作,這種方法難以適用于長時間執行的任務。
![]()
△在杭州參加機器人學術會IROS后,吳翼發了個小紅書,照片里他手捧奶茶笑得很開心,圖片:采訪人提供
在專業領域態度嚴謹的吳翼,在社交媒體上卻展現出另一面。
這位自稱的“高能量I人博導”,經常在小紅書上分享科研進展,也樂于回復有關AI求職與發展的提問。
因為喜歡喝奶茶,吳翼不僅會認真評選Top5奶茶口味,還會專門拍照打卡喜歡的奶茶品牌。
![]()
△吳翼喜歡奶茶,在小紅書上發的招聘信息,配圖也是一杯奶茶,圖片:網絡截圖
近日,吳翼接受了《智能涌現》的專訪,分享了很多對AI前景、創業的思考,其中也包括幫自己快速決策、提升團隊效率的方法。內容經作者整理:
AI的未來是聰明的智能體
智能涌現:目前AI還沒有出現在大規模普及的應用,你認為AI產品的未來機遇在哪里?它會如何服務大眾的生活?
吳翼:我覺得讓AI實現長程任務是一個不可逆的趨勢。此外,人對AI表達的命令會越來越簡單、含糊。
現在還很難講最終的產品形態,但AI產品上最終出現“從用戶需要主動驅動AI,到AI提前猜到用戶想要什么并完成”的變化。
這個事情在移動互聯網上就出現過。比如在搜索引擎時代,是人們有了需求主動去找信息。然后有了知乎,再有了字節的各個產品,算法可以把用戶想要的內容推送過來,讓用戶被動接受信息。
所以我想,最終人們會慢慢忘記主動搜索的對話框。聰明的AI可以越來越多服務“懶”人的需求。
最終一定會出現這樣一個全新的產品,它是一個大的時代的機遇。
智能涌現:你在WAIC等活動上都提到,當智能體(Agent)有了身體子以后,就變成了具身智能體(Embodied Agent),可以與物理世界交互。簡而言之,這就是AI機器人。具身智能體能做什么樣的工作?
吳翼:聰明的具身智能體(Agent)僅憑模糊的指令,就能準確推測用戶的意圖,高質量完成任務,甚至還能主動考慮到用戶尚未意識到的需求。
比如,你在家里跟機器人說,我的充電寶找不到了,它就會自己推理、行動,根據你的使用習慣和它記憶中你上次用過充電寶的位置幫你尋找。
智能涌現:聰明的具身智能體也能多機協作嗎?多具身智能體是如何配合的呢?
吳翼:具身智能體可以一起配合,完成更復雜的任務。
比如在機器人足球隊里,機器人們和人類球員一樣,當遇到訓練過的情況時,互相眼神一對,就知道該組成什么陣型了。
如果有了多個聰明好用的智能體,那多出來的一步就是定義他們之間怎么溝通。
在數字世界里面,智能體溝通的方式可能是有一個Master Agent去驅動很多小的Agent。你可以用不同的模型,你也可以用一個模型,但結構上像是有一個人在不斷做規劃,很多人在同時圍繞規劃做執行,這就所謂的Multi-Agent System。
我常舉的一個例子是 Claude Code和Gemini 的協作。
Claude Code的代碼能力很強,但上下文短、成本高;而 Gemini 雖然笨,但能處理大量內容。于是就可以讓Gemini先讀完整個Code base,篩出最關鍵的內容,再交給Claude Code寫代碼。
相當于一個聰明但身體不好的人,和一個體力無限的傻子,兩者協作,就形成了一個多智能體Multi-Agent System的高效組合。
放到具身智能體干活的場景,比如需要幾個機器人一起打掃空間。大家“溝通”之后會有一個任務規劃,誰負責掃地、誰負責擦地,一起配合完成。
智能涌現:從數字世界的智能體到物理世界的具身智能體,怎么過渡?
吳翼:從數字世界到物理世界的過渡,需要多模態數據,訓練環境也從電腦里來到現實世界。
在數字世界里面用的工具,就基本上是Bits,這是一個執行成功率很高的東西。那么你基本上你去寫一段代碼就能執行相應的功能了,確定性比較高。當然,怎么寫代碼這件事本身并不容易。
而真的到了物理世界用工具的話,比如說拎包開門,機器人去執行這個任務時,失誤率目前還是很高的。因此具身智能的發展會更復雜,也會更慢。
但是,我覺得站在宏觀上看長遠的發展,如果有一天智能體的底層物理世界已經數字化改造得差不多了,各種智能體的核心技術挑戰最終是統一的。
比如,當我們真的有一個機器可以對大部分物理世界工具形成100%成功調用,那么在此之上構造一個能自主運行一整天的具身智能體,從技術上就和Bits世界的智能體其實沒什么區別。
![]()
△今年WAIC上,吳翼和伯克利時期導師Stuart Russell的合影,圖片:采訪人提供
AI創新不能靠“賭一把”
智能涌現:你本身在字節實習過,自己的團隊創辦了邊塞科技,后來又選擇和大廠合作推動強化學習技術,走了這么一大圈,回頭看有什么思考嗎?
吳翼:早期的邊塞科技團隊,其實選人上踩了不少坑。當時有不少員工其實是抱著上班的心態來工作的,并沒有意識到創業意味著什么。客觀來看,整個團隊確實不大ready,不大符合AI時代的創業精神。當然,大家都是第一次,踩坑也不可避免。
我現在很不喜歡的一句話是,“沒有資源,我沒法做某件事”。創業團隊并沒有豐富的條件,人們都是創造資源去做自己目標的事情。
所以,創業團隊其實更需要有創新的火苗,以及相應的覺悟的人。
創新是沒有Bet(“賭一把”)之說的,創業需要對所做的事情有堅信,我們沒有那么多的資源去押注不同的賽道,賭一個能跑出來的未來,這樣會造成很多中庸的方案。
創業精神是,我堅信有些事情即使我沒做成,但它是對的,總有一天會被實現的,哪怕不是我。
智能涌現:“伯克利四子”(指吳翼、高陽、許華哲和陳建宇四位畢業自加州大學伯克利分校的青年學者,目前皆活躍于AI、具身智能領域)種你是最先決定回清華任教的,然后你帶動了其他人回國。這是為什么?
吳翼:2018年8月份我結束在北京的字節實習。我雖然在Berkeley讀的PhD,但我其實受字節影響不小。
從2016年開始,我就斷斷續續在北京字節的不同團隊實習,也是字節AI Lab最早的成員之一,恰巧見證了中國移動互聯網的尾巴。2018年8月,我結束最后一段字節的實習之后,就想清楚了我要回國。
一方面是感到了中國發展的巨大機會,另一方面也是明顯感覺到華人在美國的天花板。除非你變成一個美國人,那么就回到了一個根本的問題:如果你想做出有影響力的事情,那么你想成為中國人還是美國人。我發現我并不想妥協成為一個美國人。
面對選擇時,很多人會說,“我現在不Ready,要等未來準備好了再如何如何”。比如,關于回國這件事,就會有人說“我在美國再發展一段時間,過幾年我再回國”。
但我有一個理論:如果你未來確定想做一件事情,最好的時間是過去,其次是現在。于是我覺得,那不如就選擇回國吧。
回國做什么呢?我想了一個月之后拒絕了字節的Return Offer;2018年10月,我敲開了姚先生辦公室的門,選擇回清華做老師。
然后我就跟當時的幾個Berkeley的同學分享了我的想法,說大家趕緊回,是有機會的。我的想法也很簡單,看到好的機會我就想和大家分享,也確實影響到了一些人。
我們站在這么多年后去會看,確實對于回國這件事來說,那個時間點是個好的Timing,我們也確實作為早期回國的學者享受到了一些紅利。
智能涌現:印象里你總會做一些挑戰,然后一邊學習一邊調整,才走到了后來的路上。比如博士先選到了不喜歡的專業后才改到了強化學習;比如同批回國的學者里你似乎又是先開始創業的,等到同一批的同學都開始創業了,你又選擇和大廠合作。你的經歷聽起來也像是一個強化學習的過程?
吳翼:對,我真是一路強化學習,一路踩坑,我能把我能想到的坑全部快速的踩了一遍。哈哈,我自己感覺通過踩坑學習比SFT(監督微調)學得要深刻一些,泛化得好一些。
做產品其實也類似。我常說做出一個產品要趕緊拿出來,AI時代,酒香也怕巷子深,要趕緊把產品拿到巷子口讓大家用起來,得到反饋。即使市場反饋是失敗的,也知道坑在哪里,快速試錯迭代。
當然,這里也是要和大家說一下,如果能有高質量SFT數據的話,再去做強化學習可以學習效率高一些。因為強化學習的探索得到負反饋還是挺消耗的,所以我也希望把我的經歷和看法做一些分享給大家,讓大家能夠進步的快一些。
智能涌現:開創性的機會往往意味著沒有那么多可參考的經驗,你是如何說服自己下決心的?
吳翼:遇到需要下決心的事情時,我有一套快速決策的方法:先拋個硬幣。硬幣落地之前,其實心理就已經知道答案了。
我總是那個先拋硬幣的人。
智能涌現:對你來說,是想做的事情重要,還是光環重要?如果可以實現理想做出偉大的成績,但要隱姓埋名你愿意嗎?
吳翼:我愿意。
我想過這個問題:如果我能從0到1建立一個好的創業公司,后來這家公司進入1到100的階段、組織迅速變大,而我不再是最被光環圍繞的管理者。這件事我能不能接受?答案是可以。
到那個拐點,我很可能會引入職業經理人,自己再去做下一個0到1。原因很簡單,從1到10甚至1到100往往需要上百人協作,這么龐大的管理不是我最享受的工作。
不過我現在也確實在反思,是不是被這種理想主義的狀態限制住了。也許真的那個時間點到來的時候,我會做不一樣的選擇。但如果你現在問我,我可能傾向于一直做那個0到1。
強化學習是通往AI未來的鑰匙
智能涌現:AReaL團隊所做的強化學習,為什么能很好地服務于AI的訓練?
吳翼:強化學習的訓練特點是讓AI自己在實踐中學習,這更能訓練出很聰明的人工智能。
之前的所謂監督學習、SFT(監督微調)的方式,是人去告訴AI這個事情怎么做。但這是很難的,因為它的可能性很多,人不能在10小時里一直下指令。
而且,人給的指令可能和AI想的不一樣,很多時候指令給多了,AI死記硬背后不見得真的會“理解”,于是模型很可能泛化能力會很差。
所以,我們希望通過強化學習技術,讓AI主動跟環境交互,甚至做到在自己拿不準的時候能學會問問題。這種鼓勵AI自我迭代的訓練模式,本質上是在培養AI自己探索的能力,這只有通過強化學習才可以做到,
智能涌現:我們下面來聊一聊技術的Know How。你之前說,要做好強化學習,技術上有三個要素很重要,就是獎勵機制(Reward Model)、搜索和探索,還有prompt(提示詞),但三點都很難做好。都很難的話,怎么解決?
吳翼:我現在的感覺其實最重要的是prompt,如何創造大量高質量的prompt。
這三點可以用一個具體的例子解釋,比如老師想輔導高中生做數學題,prompt相當于老師出的題,搜索和探索是學生自己解題的能力和過程,Reward model是老師給學生的反饋。
什么樣的題可以把學生的水平提高很重要。比如給中學生高等代數的題,可能會太難;如果給太簡單的題又得不到提高。如何出恰到好處的題,是非常重要的。
這也是強化學習框架下對于數據的最大挑戰:量大并不管用,核心是要合適,才能提高模型能力
智能涌現:強化學習和具身智能體間有什么關系,強化學習是如何讓聰明的機器人為人類服務的?
吳翼:強化學習和具身智能體的關系其實有兩個方向,一個是Locomotion,也就是運動控制,這里的強化學習技術成熟的比較早,并且完全不需要預訓練。
還有一個是長程推理和規劃相關,一般和經過預訓練的大模型結合。這個方向隨著ChatGPT的誕生才逐漸普及,相對比較新。
這兩個方面其實代表著具身智能的一個譜線,從高頻率控制完成短的控制任務,到抽象的任務規劃完成更復雜的推理任務。
傳統的強化學習解決控制問題是不需要預訓練的,比如各種跑酷的機器狗,比如控制機器人跑跳。這些都是直接通過微小尺寸的神經網絡,直接在物理仿真環境里面進行強化學習訓練后,直接遷移到現實中的,并不依賴預訓練。
在這里,強化學習通過算法訓練神經網絡,輸出對于機器人每個關節的底層控制信號,以此控制機器人運動。這些任務的特點就是控制頻次很高,同時任務完成周期很短:比如跑跳可能是通過幾十次關節控制在幾秒鐘內完成了任務。
那么,ChatGPT,Deepseek R1所代表的強化學習技術,就是和大模型預訓練緊密結合的:先要有一個經過預訓練的基礎模型;預訓練完成后再通過強化學習做后訓練,去激發模型強大的思考和推理能力。
比如Deepseek R1就是這樣。最近OpenAI和Gemini去比IMO、IOI這些數奧競賽,也是通過強化學習增強了模型的推理能力去實現的。
經過強化學習訓練的大模型,可以做分鐘級到小時級的思考,可以有常識,可以把復雜的問題進行任務拆解,可以調用工具。不過目前推理強化學習的成功實踐還是在數字世界,沒有廣泛影響物理世界。
但這其中是有中間態的,就是具身智能常說的VLA(Vision-Language-Action model)。
智能涌現:那如何從VLA的中間態,推進到具身智能體的最終態?
吳翼:VLA是大家嘗試用預訓練的思想,解決物理世界問題的方法。
人們收集很多數據,去嘗試預訓練一個針對物理世界的大模型,讓物理世界的模型不光能夠完成幾秒鐘的跑跳任務,也能有足夠的泛化能力去完成幾分鐘級別的人物,比如疊毛巾,比如給杯子倒水。
那再往后發展呢?如果我們希望完成一個更長程的任務,比如做個飯、打掃衛生。
這些任務可能需要幾個小時才能完成,中間需要非常非常多的機器人的控制,也需要很抽象和常識性的分解和規劃,甚至和人做交互——就像數字世界的智能體一樣,只不過是在物理世界里。
所以我會把這樣的智能體叫做具身智能體。我個人覺得,具身智能體恐怕是需要把Locomotion的強化學習或者VLA看成物理世界的工具或者小腦,并且把類似ChatGPT這種完全基于預訓練的強化學習技術看成大腦。兩部分需要結合起來。
和數字世界的智能體LLM(大語言模型) Agent的爆火不同,物理世界的智能體概念大家還關注的比較少。大部分人還是更關注硬件,更關注底層控住,在關注杯子能不能抓問,分揀能不能準確。當然這些也確實是具身智能和LLM的不同之處——改造物理世界總是困難的。
因為我自己更關注強化學習和智能體技術本身,所以我會先關注大腦的部分,思考怎么讓智能體能夠穩定可靠地完成10小時的事情。然后再去和物理世界的強化學習技術結合。
智能涌現:所以,在具身智能這件事上,你的強化學習和VLA將如何、在哪個節點配合起來?
吳翼:我們現在給的方案就是分層。
這也是我WAIC講的一件事情,就是你看這個世界的兩端越往上越需要人類世界的知識,越往下越不需要。
往下的部分可能是一些直覺的反應,比如說拿一個杯子,可能具備一些力反饋,或者一些簡單直觀的物理知識,就可以辦這件事。
但往上就需要一些先驗知識。
那上下之間的切割點在哪里,就是把涉及物理世界和數字世界Agent之間可以做一個區別。
我并不認為VLA是最終范式,因為VLA預訓練的規模并不能支撐它直接成為一個很好的智能體。
所以我會先做好這個數字世界的智能體。同時有其他的從業者在做具身與物理世界相關的探索,之后再在合適的機會做結合。
智能涌現:你在外灘大會上說,在自己負責的AReaL團隊上也在尋求一種全新的、極簡的組織形態。這是為什么?
吳翼:互聯網時代,要做一個產品,高低得找四五個人,一個前端、一個后端,一個產品經理。
但在AI時代,這些工作也許是一個人和AI就可以的。
過去有很多小的組織,會找外包團隊。而AI時代,不僅組織內部會被AI簡化,外包的部分也可以節省。
我認為如果組織內可以做到大量AI化,那能力一定是可以溢出的。因為如果是AI的方式來服務自己,那它也可以服務別人,這個一定會帶來新的產品機會。
AReaL團隊現在有6個人,但從外部而言會需要一些支持團隊。如果把所有外部的同學都算進AReaL大團隊,那肯定還可以調整做到更精簡。我希望團隊保持一個AI時代的極簡狀態,這也是AReaL核心團隊人一直很少的原因。
智能涌現:不過大公司的組織形態會是比較龐大的,你具體是如何在一個大公司里實現AReaL團隊的組織簡化?
吳翼:首先,作為一個現代的Agent團隊,一定自己每天要使用大量的agent才可以。
此外,我讓算法和Infra團隊組合在一起,形成全棧團隊。
傳統的組織團隊,會把算法和系統團隊分開,還會有別的工程團隊,比如數據團隊去做數據收集和清洗工作等等。傳統的組織方式做模型時會強調分工,強調投入,讓這些工程團隊去支持算法團隊。所以好像算法團隊是個甲方,工程團隊是個做“臟活累活”的乙方。
這個事情的問題在于,一旦你做了乙方,就失去了創新的空間;而一旦習慣做甲方,就很容易不愿意做臟活累活,這會很容易失去對于技術最底層的觀察,感知,和創新所需要的自驅力。
OpenAI其實并沒有發明什么震驚世界的算法,它是把很多細節做到很強。
所以我覺得,要做好Infa、做好數據,把細節堆出來,下了這個苦功,算法就可能有很好的表現。
因此,算法和Infra是不能脫離成兩個團隊的。兩者不能有邊界,要共同設計,協同演進就可以形成一支小而有戰斗力的團隊。
大的團隊管理問題在于,如果這個組織里有200個人,就不可能沒有邊界。因為人的溝通帶寬是有限的,所以必然會走向職責劃分和管理,然后人類糟糕低效的Context Sharing能力就成為了整個團隊的效率瓶頸。
所以極小的組織形式和全棧的創新能力是相輔相成的。我覺得大家要忘掉200人的組織,反正AI時代都是0到1,要激進一些做全新的嘗試。





京公網安備 11011402013531號