從復(fù)旦出發(fā),走向世界,又重歸復(fù)旦
復(fù)旦大學(xué)可信具身智能研究院
研究員吳祖煊
活躍在人工智能與具身智能研究前沿
他專注于將智慧賦予機器人“形體”
教機器“看懂”世界、學(xué)會“動手”
因材施教,悉心培育學(xué)科交叉人才
用行動詮釋卓越有趣師者的模樣
“具身智能現(xiàn)在還處于比較早期的階段”
這位90后海歸青年正以熱情和創(chuàng)新
探索未來機器人的無盡可能
![]()
在“玩玩具”中,
為機器人打造超級“大腦”
灣谷科技園,吳祖煊的實驗室,像是一個充滿生機的微型兒童樂園。
實驗臺上鋪滿五顏六色的水果模型、拼裝玩具,團隊最近的一個日常工作,就是像“帶小孩”一樣,教機器人如何“玩轉(zhuǎn)”這些玩具。
![]()
![]()
灣谷科技園內(nèi)吳祖煊團隊實驗室
作為計算機視覺與多模態(tài)人工智能領(lǐng)域的青年科研人員,吳祖煊的科研目標宏大且務(wù)實:一方面推動計算機理解和生成視頻的技術(shù)革新;另一方面,通過這些生成的視頻訓(xùn)練機器人,為其賦予“讀懂世界”的智慧,從而真正打通虛擬世界與物理世界的橋梁。
“現(xiàn)在能跑步、跳舞的機器人固然炫酷,但它們大多只具備控制身體的‘小腦’,還遠未擁有能實現(xiàn)復(fù)雜任務(wù)的‘大腦’。”吳祖煊指出當前具身智能的瓶頸,“如果你讓機器人下樓去買一杯咖啡,它需要懂得路徑規(guī)劃、學(xué)會按電梯、甚至與人交流。對它們而言,完成這一系列步驟仍挑戰(zhàn)巨大。”
![]()
如何鍛造機器人的超級“大腦”,正是當前具身智能機器人領(lǐng)域面臨的核心挑戰(zhàn)。要解決這個難題,往往需要海量的數(shù)據(jù)作為支撐。
數(shù)據(jù)收集并不是一件容易的事。“現(xiàn)在具身智能領(lǐng)域最大的難題其實就是數(shù)據(jù)收集。一百條數(shù)據(jù),大概只能支持機器人完成一個任務(wù)。”吳祖煊解釋,傳統(tǒng)的做法,需要工程師手把手教學(xué),比如演示拿水杯、擦盤子,這不僅動作數(shù)據(jù)收集成本高昂,且面對不同場景、不同動作,人工收集更是耗時耗力。
面對這一困境,吳祖煊團隊另辟蹊徑:如果視頻生成模型足夠強大,就能夠生成海量的操作視頻,直接作為訓(xùn)練數(shù)據(jù),從而替代掉繁瑣的人工收集。基于此,他們自主研發(fā)了高效可控的視頻生成與編輯模型,為機器人進化提供源源不斷的數(shù)據(jù)食糧。

基于人類演示視頻(左)和生成模型合成機械臂視頻(右),最終部署在真機上(中)
吳祖煊團隊近期構(gòu)建了一個旨在提升視頻生成效率的模型。這個模型有一個充滿神秘色彩的名字——“reducio”,取自《哈利波特》小說中的魔法咒語“縮小咒”,精準詮釋了模型對極致壓縮的追求。與sora等追求宏大效果的模型不同,reducio的特點就一個字——快。通過創(chuàng)新編碼方法,reducio能將原始視頻壓縮4000多倍,實現(xiàn)超高壓縮效果。團隊論文發(fā)表時,reducio能在單張a100 gpu上,用16秒生成1k分辨率的視頻,這是當時全球最快的紀錄。
有了海量的仿真數(shù)據(jù),如何讓這些仿真數(shù)據(jù)真實地作用于物理世界?實踐的靈感,來自吳祖煊兩歲的孩子。陪伴孩子玩拼裝玩具時,他發(fā)現(xiàn),孩子能輕松拼好的檸檬積木,對機器人而言卻極具挑戰(zhàn)。即便是最簡單的“對準、拼合”動作,也涉及精細的觸覺、力度和空間判斷,這正是當前機器智能的盲區(qū)。
看似“玩耍”的訓(xùn)練,實則是在鍛煉機器人的“大腦”,這關(guān)乎它們能否在工廠進行精密裝配,能否真正融入人類生活。吳祖煊憧憬著:“大腦”發(fā)達的機器人,有望顛覆未來的工業(yè)場景。
“中國產(chǎn)業(yè)鏈和應(yīng)用場景極其豐富,這意味著我們在數(shù)據(jù)資源方面擁有獨特優(yōu)勢。”吳祖煊介紹,目前團隊已與行業(yè)頭部企業(yè)等展開合作,采集真實產(chǎn)線數(shù)據(jù)。他預(yù)言,未來3-5年,機器人有望在精密裝配領(lǐng)域大顯身手,真正成為人類的得力助手。
從產(chǎn)業(yè)界跨向?qū)W術(shù)界,
只因熱愛自由研究
chatgpt、豆包、sora……近幾年,人工智能(ai)無疑是科技領(lǐng)域最火熱的關(guān)鍵詞。社交媒體上,ai生成的視頻已然鋪天蓋地。
“今天人工智能行業(yè)的發(fā)展,應(yīng)該是所有從業(yè)者都沒有想到的。”從學(xué)生到科研工作者,吳祖煊十余年一直扎根于計算機領(lǐng)域,專注于計算機視覺和深度學(xué)習(xí)研究。他的團隊在ai領(lǐng)域中取得了很多突破性工作,產(chǎn)出的開源數(shù)據(jù)集、模型等,已經(jīng)悄然運行在了華為、字節(jié)跳動等企業(yè)產(chǎn)品中。
選擇計算機專業(yè),深耕人工智能領(lǐng)域,似乎是一名理工科“學(xué)霸”的標準進階之路。但驅(qū)動吳祖煊的,并非追尋熱點,而是那份自幼萌發(fā)的純粹興趣。
“我大概在小學(xué)三年級就開始接觸編程了,”他回憶。小學(xué)時有電腦課,跟隨指令在屏幕上畫圖的“小烏龜”,啟蒙他進入代碼世界。到了初中,他已開始自學(xué)制作網(wǎng)頁,搗鼓flash動畫,電腦對他而言,是一個能創(chuàng)造無限可能的奇妙工具。
2009年,他考入華東師范大學(xué)。2013年進入復(fù)旦大學(xué)讀研,恰逢深度學(xué)習(xí)浪潮興起,他成為最早將深度學(xué)習(xí)應(yīng)用于視頻分析的研究者之一。
![]()
2018年參加國際計算機視覺與模式識別大會(cvpr)并講解論文
此后,他遠赴美國馬里蘭大學(xué)攻讀計算機科學(xué)博士學(xué)位。期間,他專注于動態(tài)神經(jīng)網(wǎng)絡(luò)加速研究,通俗來說,就是讓計算機“幾分鐘看完一部電影”——通過理解幾幀畫面便能快速掌握長視頻內(nèi)容。
他曾先后在ibm、salesforce和facebook等頂尖科技企業(yè)實習(xí)和工作。然而,產(chǎn)業(yè)界的環(huán)境和節(jié)奏讓他感到了研究受限——經(jīng)濟向好時,公司愿意在研究領(lǐng)域投資,鼓勵大家自由探索;一旦形勢變化,研究領(lǐng)域的投資就會收縮。他渴望的,是能始終追隨興趣,在計算機前沿研究的無人區(qū)自由行走。
于是,吳祖煊做出了一個在旁人看來有些“任性”的決定:回國找教職,并且只向復(fù)旦大學(xué)投出了一份簡歷。“沒想過去其他院校嗎?”“沒有,只考慮了復(fù)旦。”問及原因,他笑著回應(yīng):“可能純粹就是一種感性。”
這份“感性”,或許正來自于母校給予的歸屬感。2021年,他如愿回到復(fù)旦。他在復(fù)旦找到了科研的快樂,既能自由探索前沿,又能將創(chuàng)新的種子通過教導(dǎo)學(xué)生播撒出去。
![]()
今年3月,復(fù)旦成立可信具身智能研究院,專注具身智能的前沿研究與應(yīng)用落地,吳祖煊是核心成員之一。“復(fù)旦為青年老師提供了很多支持,包括各類基金項目、卓越人才支持計劃等。在這里,我們能夠?qū)P淖隹蒲小!彼f。
精益求精做科研,
開拓具身智能的未來
吳祖煊的個人主頁上清晰寫著:“我目前正在尋找具備強大編程能力、熱衷于設(shè)計視覺理解算法的學(xué)生”,邀請能力卓越的學(xué)生加入他的課題組。而為了培養(yǎng)好“后浪”們,他也不遺余力給大家提供更好的平臺。
“精益求精”,始終是吳祖煊踐行的科研理念。他對論文的要求很高,絕不淺嘗輒止。面對學(xué)生交上來的課題,如果有值得深入的地方,他就會鼓勵學(xué)生繼續(xù)“挖一挖”,把論文整體質(zhì)量再往上提高一個層次。
![]()
2024年帶領(lǐng)學(xué)生參加國際計算機視覺與模式識別大會(cvpr)
正是在這種理念的浸潤中,吳祖煊團隊的研究工作碩果累累。今年10月,計算機視覺領(lǐng)域頂尖會議iccv在美國夏威夷舉辦,吳祖煊團隊多篇文章經(jīng)專家嚴格評審后被錄用。
如今,吳祖煊帶了多名博士生在具身智能前沿領(lǐng)域開展研究。幾年來,每周至少一次、每次半小時以上的一對一式組會,已成為他們課題組的傳統(tǒng)。吳祖煊喜歡與學(xué)生深入討論,而非頻繁開大型組會。在他看來,只有坐下來面對面,才能真正聽懂每個人在琢磨什么、卡在哪里。這種方式讓他能摸準每個學(xué)生的脾氣和思路,為他們量身定制培養(yǎng)方案。
對待基礎(chǔ)扎實的學(xué)生,他會鼓勵他們自由研究探索;對待進度較慢的學(xué)生,他會主動推一把,協(xié)助他們規(guī)劃研究路徑。他的辦公室隨時對學(xué)生敞開,只要學(xué)生有問題,隨時都能與他交流。
![]()
“吳老師對我的幫助很大,”即將畢業(yè)的博士生陳昊然分享,剛讀博時,他在去企業(yè)就業(yè)和做學(xué)術(shù)之間搖擺不定,“我找吳老師聊了很多次,他一直引導(dǎo)著我、鼓勵我嘗試走適合自己的科研道路,告訴我怎么樣去成為一個好的科學(xué)家。在他的影響下,我慢慢確定下來要去做科研。”
“實際上,具身智能現(xiàn)在還在一個比較早期的階段。”吳祖煊期待,團隊未來能夠生成并提供更優(yōu)質(zhì)的數(shù)據(jù),更精準地控制機器人并預(yù)測動作,更能讓一個模型在不同場景下支撐不同機器人本體完成各種精細化的動作。
隨著機器人的智能化水平越來越高,吳祖煊有著更宏大的想象:“下一代人工智能,或許能夠像孩子一樣,跟環(huán)境進行交互學(xué)習(xí),實現(xiàn)自主學(xué)習(xí)。”而他,正像一位陪伴孩子“長大成人”的家長,在為機器人“注入智慧”的漫漫長路上,以一顆赤子之心,堅定不移地求索著。
組 稿
校融媒體中心
文 字
殷夢昊 鄧晗
圖 片
李婉菲
鄭藝
責 編
殷夢昊
上觀號作者:復(fù)旦大學(xué)





京公網(wǎng)安備 11011402013531號