從理解“物”開始讓機器人學會物理常識。
作者|蘇霍伊
編輯|王博
邵林的微信頭像是一張舊照片。
斯坦福大學的AI Lab里,Franka機械臂配著Schunk手,穩穩舉起一只蘋果。他說,這張圖能把他一下子帶回讀博時的狀態:調試、對齊、訓練數據,一遍又一遍,讓機器人手掌學會“如何拿起”。
邵林微信頭像中的機械手臂
十年前,邵林的這項研究被稱為“跨本體抓取(cross-embodiment grasping)”,是讓機器人從實驗室走向現實世界的重要一步。
彼時的機器人研究還遠未“破圈”,邵林與在吳恩達組的同窗田野卻已開始圍繞一個問題反復打磨:什么時候,機器人能真正進到尋常人家。田野是四川人,會做川菜,也常帶邵林在灣區吃川菜。“現在回想起那段記憶都伴著川菜的香味兒。”邵林笑著對「甲子光年」回憶。
現在的邵林是新加坡國立大學助理教授,也是具身智能企業RoboScience的聯合創始人、首席科學家。邵林師從Jeannette Bohg,聯合導師為Leonidas J. Guibas,他也是亞洲唯一的IEEE機器人學習技術委員會聯合主席。
而帶邵林吃川菜的田野是RoboScience的聯合創始人、CEO,曾任蘋果公司設備端機器學習平臺團隊技術負責人。
邵林(左)和田野(右)合照
做了太久朋友,默契自然長出來,“有時候一個眼神就知道對方在想什么”。他們也反復確認一個方向:做有溫度的技術,以人為中心,讓產品去解決真實問題,而不是只在論文里漂亮。
他們的技術和產品也獲得了投資機構的認可。今年7月30日,RoboScience宣布完成近2億元天使輪融資,由京東領投,招商局創投、商湯國香資本跟投,老股東零一創投繼續追投。
但我們有一個疑問,既然兩人相識十年,為什么不是更早動身創立RoboScience?
邵林的回答是“天時地利人和”。他們并不看別家怎么做,而是先把底層技術和路徑做足驗證,做了長期規劃、從多視角論證可行性。
真正的觸發點出現在2024年:大模型的進展把“泛化”推到眼前,他們開始系統討論如何設計決策系統,讓具身智能具備類似ChatGPT的廣泛能力。兩人對“以人為中心、做有溫度的技術”有共識,溝通頻率很高。
在熱度之外,邵林仍把“落地”當作關鍵字。
他的判斷標準很簡單:現有技術能在短時間內穩定運行,并且能帶來足夠的商業回報。其他的,則繼續按多年前形成的節奏來——把實驗臺上的那只蘋果,真正搬進現實世界;把飯桌上反復咀嚼的那句話,落在具體場景、真實的生活。
本文,「甲子光年」對話新加坡國立大學助理教授,RoboScience聯合創始人、首席科學家邵林。
1.談模型:VLA應被視為輸入到輸出的決策映射目標,而不是陷入概念之爭
甲子光年:我們開門見山,具身智能賽道競爭激烈,RoboScience要做的是什么?
邵林:我們主要關注并開發具備通用能力的具身智能系統,讓機器人真正走進千家萬戶,并能在真實世界中執行多樣化、復雜的任務。
甲子光年:在LLM(大語言模型)領域,有夠多且夠好的數據,訓練出來的模型性能通常會越好。但是在具身智能領域,似乎效果并沒有那么好,為什么?
邵林:新一代AI模型繞不開的話題就是數據。
VLM(視覺-語言模型)和LLM,本質上在于CV(計算機視覺)和NLP(自然語言處理)的數據格式。CV的數據是像素,尤其在圖像里;NLP里有tokenization(詞元化,把文本切分為字、詞或子詞的過程),這對它們來說很直接。這里會出現scaling law(規模法則)現象,更多數據被投影到同一坐標系,就能設計更大的模型,效果更好,最后形成一套訓練體系。
具身智能當然也想復制CV和NLP的大模型成功,只是具身智能的數據多樣性遠超這兩個領域。如果不解決數據格式統一的問題,而是直接套用CV、VLM或LLM的范式,就會遇到很多問題。
甲子光年:具身智能的數據多樣性體現在哪些方面?
邵林:一是任務多樣性。家用機器人進入真實環境,我們希望它能做各種事,比如端茶倒水、洗衣做飯。這些任務差異很大。其次是物體多樣性。在家里它要處理柔性物體,比如疊衣服,就必須理解可形變屬性;開門關門涉及鉸鏈特性;硬質物體又是另一類;可形變物體還分1D、2D、3D,物理屬性各不相同;還涉及物體的幾何形狀差異。機器人要學會用工具、操作物體,就要理解幾何差異。同時還有硬件本體的多樣性,我們叫cross-embodiment(跨本體)。現在各種硬件設計百花齊放,比如末端執行器有兩指、三指、五指的,驅動方式的結構也不同。
這些情況讓具身智能大模型的開發更復雜。因為執行任務最終要依靠本體,模型要適配不同硬件。如何讓機器人理解這些特性,就讓數據的收集、處理和學習更難。
如果要有一個統一的大模型,它必須封裝三方面的多樣性:任務、物體和機器人本體。需要設計統一的數據格式,把不同數據投影到同一坐標系,在此基礎上再設計訓練范式,才能實現最大程度的泛化。這才是核心問題,需要深入思考,而不能簡單套用CV或NLP的經驗。
甲子光年:你們的解決方案是什么?
邵林:延續剛才提到的統一數據格式問題。統一的數據格式是構建具身操作大模型的前提條件。只有找到一種通用的描述方式,才能把大量數據納入同一體系,充分挖掘其中蘊含的知識。
一個統一坐標系的重要性非常關鍵。物體的運動軌跡可能是相對統一的數據格式。尤其在manipulation(操作)場景下,本質就是讓機器人操作或接觸物體,對其施加力量,改變其運動狀態,使物體從狀態1轉變到狀態2。
這種狀態轉變本質上就是運動軌跡的變化。具身操作最直接的體現就是物體在三維空間中的形態和位置發生變化,我們稱之為object trajectory(物體軌跡)。
它可以較為完整地描述各種具身操作任務。以object trajectory(物體軌跡)為核心,可以逐步擴展:不同機器人對不同物體施加怎樣的操作,從而導致不同軌跡變化并表征不同任務。任務、物體和本體的多樣性,都可以通過object property逐步展開,最終形成一張覆蓋這三個層次多樣性的網絡。
基于這樣的思路,我們開發了VLOA(vision-language-object-action,視覺-語言-對象-動作)模型。它的特點是以vision和language作為輸入到規劃層的通用任務規劃模型,輸出object trajectory作為中間接口,執行層的通用操作模型理解object應發生的狀態變化,以此生成為達成此狀態變化需要的機器人的action。
甲子光年:VLOA能做到任務、物體和本體的三維度泛化,請問具體是怎么做到的?
邵林:泛化是必須考慮的,也是基礎。VLOA的特點在于,它通過讓機器人預測物體的運動軌跡來實現對任務的理解和多樣性的把握,更加專注于任務相關狀態的變化信息。
在底層,從物體的運動軌跡到機器人本體再到動作輸出,我們讓機器人去理解物理規律,并以此作為指導。假設我們已經知道機器人希望物體發生什么樣的狀態變化,那么它就需要理解該施加什么操作,才能讓物體沿著預期軌跡發生改變。這本質上是一個基于物理規律的過程,使泛化的基礎更扎實、更接近事物本身的狀態。畢竟,操作的本質就是機器人與物體接觸,傳遞力和力矩從而改變物體的狀態。
甲子光年:VLOA的設計思路和VLA(Vision-Language-Action,視覺-語言-動作)模型相比,最大的不同是什么?
邵林:VLOA主要關注具身智能操作的核心點:改變物體的運動狀態。在此基礎上進行架構設計,讓VLOA具備了一些優勢。
第一個優勢是中間態的描述。這種分層使得數據的收集和處理更有條理。上層從V到O的過程,是機器人或具身操作模型把任務的語義信息映射到物體的狀態變化,即物體應該發生怎樣的變化來代表任務完成。在這一層,我們能夠充分理解各種不同來源和形式的數據,因為它并不直接涉及具體的執行方式。這種顯式的中間態同時帶來了可解釋性和安全性。
下層從O到A的過程,則要學習物理規律。機器人需要依據物理規律去操作物體,使其產生我們期望的運動狀態變化。換句話說,上層學習的是語義信息,下層學習的是物理規律。這樣一來,就可以把數據的收集與具體執行解耦:上層可以從各種數據形式中學習語義,下層則以物理規律為指導,為泛化提供一個穩定的基礎。這是VLOA的第二個優勢。
第三個優勢是VLOA更貼近物理操作的本質。VLOA以物體運動軌跡的變化為核心,它的inductive basis與傳統模型不同,泛化基礎更加接近真實的物體操作和人與機器人交互的情況,因此數據利用率也會高得多。
甲子光年:最近業界出現了一些對于VLA比較尖銳的評論。你對VLA的看法是什么?
邵林:我認為VLA本質上并不是某一個具體的模型,是輸入到輸出的決策映射機制,是一個目標,其實我們的VLOA是比VLA更進一步。
我們希望構建一套系統來實現通用的具身智能。機器人的最終運行系統一定需要感知,而視覺和語言是最主要的信息來源,作為輸入端;行動則是機器人的輸出。
不論外界評價好壞,都沒有必要陷入概念之爭,而是去思考如何通過架構的創新去不斷提升模型的能力。從決策系統的角度看,這樣的體系一定會存在。至于現階段,我們是采用完全端到端模型還是可解耦端到端模型,以及數據收集過程中存在多少困難,這些問題并不會改變視覺及語言、行動作為“輸入到輸出映射”的核心定位。
甲子光年:你們在做VLOA模型時,對安全性是否有考量?
邵林:安全問題非常關鍵。如機器人部署在廚房里拿刀切菜時,我們不能允許它完全以黑盒方式運行,且必須清楚它在執行任務時的目的、意義以及預計的行為模式,才敢放心使用。
現在行業里在設計時往往沒把安全放在核心位置,但我們從一開始就考慮了這一點。
我們的思路很簡單:如果未來真的要有一個具身操作大模型,它必須滿足一定的原則,那就要反推回來,看看需要怎樣的設計、架構和數據處理方式。
所以我們設計了object trajectory(物體軌跡)。在VLOA的中間接口里有一個明確的狀態預測,這樣就可以在執行動作之前,用各種模型和方法去驗證它。比如在仿真環境里先檢查,機器人在改變物體狀態的過程中會不會帶來不安全的結果。相當于多了一道安全閥,真正執行之前就能預警。
我們可以顯式地理解和驗證機器人計劃中的物體運動軌跡,在實際執行過程中一旦出現偏差,下層的O到A“快腦”系統就能及時糾正。它的優勢在于:執行前能通過預測避免風險,執行時一旦偏差也能快速修正。這種多層的安全機制有效彌補了安全性不足的問題。
甲子光年:中間態是指動作發生的過程嗎?
邵林:這里的中間態是指模型能夠預測或理解被操作物體的運動軌跡狀態。像把一個杯子從桌面上拿起,這個過程的意思于杯子的位置從桌面轉移到空中,就表示任務完成。物體在三維空間中的位置變化,就是它的運動軌跡,而這正是中間態的描述。
2.談范式:分層與端到端,兩者并非互斥關系
甲子光年:我們了解到,RoboScience最初采用的是“快慢腦”分層模型,那它和現在的VLOA是什么關系?
邵林:可以這樣理解——有規劃層和執行層。規劃層對應慢腦,執行層對應快腦。從V到O的過程是規劃流程,對應慢腦;從O到A的過程是執行流程,對應快腦;我們的模型雖然分為上下兩層,但也是可解耦的端到端模型,規劃和執行層模型各自通用,可以分別端到端訓練, 因為有中間Interface的連接也可以作為一個整體進行端到端訓練。
甲子光年:假設數據足夠多,單一系統的端到端VLA最終會比分層端到端的泛化性好嗎?
邵林:老實說,這既沒法證明,也沒法證偽。因為這種情況根本沒有發生過,我們也不知道要多少數據才算“足夠多”。如果這個問題要兩百年后才有答案,那現在去討論就已經失去了實際意義。但它依然是個值得思考的關鍵問題。
在現有的結構和數據規模下,我們其實做了很多實驗,并把最新的結果放到了網上,有個工作叫VLA-OS(論文鏈接:https://arxiv.org/pdf/2506.17561)。實驗結果表明,在目前的條件下,分層端到端確實比單一端到端表現出更好的泛化能力。這不是我的個人觀點,而是實驗得出的結論。實驗現象表明確實存在這樣的結果,但至于為什么會出現這一情況,我們還需要進一步分析。
甲子光年:你覺得端到端的范式是不是一條通向AGI的可行路徑?
邵林:我認為外界對端到端存在一定的先入為主和過度期待。
實際上,“端到端”這一概念本身帶有模糊性,尤其在“端”的定義上,如果不加以明確,僅僅籠統地討論這一范式,就容易產生偏差。端的界定決定了具體的設計路線和實現方案。這一點必須澄清。但同時,端到端無疑是現代人工智能的一項重要技術。它的核心特征在于將傳感器或觀測數據作為輸入端,直接對應到輸出端,通過整體參數進行聯合優化(joint optimization)。這種方式使得導數能夠直接貫通輸入與輸出,進行全局優化,從而顯著減少中間環節的工程干預。
數據驅動的方法能夠大幅降低人工在工程環節的投入,因為它覆蓋了從輸入到輸出的完整過程。從這一角度來看,端到端確實是一種極具價值的技術范式。但需要強調的是,將端到端與分層對立起來的觀點并不成立。端到端的體系中完全可以包含分層設計,而分層的實現過程同樣可以采用端到端方法,兩者并非互斥關系。
甲子光年:各家對分層結構的設計也不同,我們發現你們選擇了顯式信息傳遞的路線,你們的考量是?
邵林:選擇顯示信息,第一是因為它能充分承載核心信息。就像你說,各家在分層結構上的設計都不同,即便都是顯示信息,如何取舍也是他們對智能方向理解和思考深度的折射。
選擇object trajectory(物體軌跡),我們考慮到第一它的表征能力足夠強。軌跡能描述各種物體的狀態變化,包括柔性的、鉸鏈體的,甚至區域物體的變換,都能用軌跡的形式表現出來。它不僅信息足夠豐富,而且和操作任務的結果高度契合——因為操作的本質就是讓物體狀態發生變化,而軌跡正好就是對這種變化的直接刻畫。同時,它還能把無關的東西濾掉,比如背景光,這些和操作任務沒關系。既保證了表征的充分性,又去掉了噪音,更貼近任務的核心。
其次,它在數據利用上有優勢。軌跡預測本質上是語義信息的學習,只需要采集相關語義數據就能訓練,不局限于機器人自己做過的動作。比如人操作時物體狀態的變化,機器人一樣能學。它讓數據可以跨平臺利用,不受限制。而且軌跡本身遵循物理規律,我們可以通過大量仿真生成海量軌跡數據,讓機器人在低成本下快速掌握物理規律。
第三,還有安全性和部署頻率的考慮。我之前提過,就是它能提供可解釋性和可控性。分層設計讓底層運行頻率比上層高,可以更快響應,相當于有一個“安全閥”,保證系統運行的穩定性。
甲子光年:仿真引擎是具身智能研發的“訓練場”,不管端到端還是分層,都離不開它。那么,你們的仿真引擎是自研的嗎?
邵林:是的,我們非常重視仿真開發,仿真能為大規模操作模型提供豐富的監督信號。這也是為什么我們一定要自己做仿真。同時我們在使用上有獨特的要求,而現有的仿真器暫時無法滿足,所以必須自研。我們主要從兩個方面做了研究。
一是物理準確度。我們希望仿真器在碰撞和接觸的模擬上更精準。所有物理引擎的底層都是數值優化問題,因此我們在數值優化和求解器上投入了大量研究。外在表現就是碰撞模擬和力計算更準確,避免了穿模現象。比如機器人抓水杯,如果杯壁較薄,普通仿真器可能出現手指穿透杯壁的情況,這是嚴重違背物理規律的,而我們的引擎在設計之初就杜絕了這一問題。它還支持柔性物體模擬。我們也是全球第一個讓機器人打領帶的團隊。打領帶過程中會出現各種纏繞和形變,我們的仿真器能避免領帶穿模,并提供準確的力和碰撞計算,這保證了機器人能真正完成這一復雜操作。
二是可微機制(Differentiable Mechanism)。傳統物理仿真器大多只做前向預測,也就是給定輸入預測未來狀態。而我們的仿真器還能提供反向計算:如果想讓未來狀態發生變化,輸入端該怎么調整?這相當于在物理仿真中加入了可微運算圖,類似神經網絡中的反向傳播(backpropagation)機制。這樣一來,系統參數的調整就變得更高效。
甲子光年:你剛才提到穿模的情況是因為很多數據并不符合物理規律。那你們的數據都由哪些部分組成呢?是不是主要來自你們的物理仿真器?
邵林:我們對于語義信息的理解,不止依賴物理仿真引擎。因為仿真引擎更多提供的是最底層的運動規律的數據仿真,它很多情況下并不涉及語義信息。在仿真環境里去搭建大量的語義信息其實是很難的事情,尤其是構建和搭建場景,這個代價其實非常高。
所以在底層,物理引擎首先給我們提供的就是物理規律的學習。它提供的主要是非語義條件下的物體操作數據。比如我有一個物體,我想讓它朝另一個狀態去變化,那么物理引擎告訴我該怎么操作,它關注的只是物理過程,而至于這個狀態本身是不是帶有語義其實并不重要,我們把這部分和語義剝離開了。上層才是學習語義信息的地方。
在語義層,我們可以充分利用互聯網數據,包括大量的視頻數據去學習。因為語義信息并不直接涉及物理執行過程,所以可以從視頻里去學,理解操作背后對應的語義是什么樣的。除此之外,我們還會用一些說明書類的數據,雖然它們的描述可能不夠豐富,但也能表現出物體操作的一些過程,我們的模型同樣可以覆蓋并吸收這種數據來源。
這樣分層之后,不同來源的數據都能被我們統一納入一個體系,就像“海納百川”。模型能從海量數據里抽取和學習有用的信息,把其中的規律和語義都吸收到位,從而支撐出更好的模型。
甲子光年:“一腦多型”具身智能發展目標,它和端到端、分層、仿真引擎之間是方法論與工具上的關系。你怎么看“一腦多型”?
邵林:“一腦多型”背后的邏輯就是讓操作的軟件或者模型能夠去適配不同的硬件。機器人設計空間很大、構型很多,操作模型需要理解這種設計空間的分布,然后根據不同的構型去適配不同的輸出方案。這樣一來,它就能跑在各種硬件上,有點像操作系統能把硬件的多樣性都封裝起來一樣。
它的意義也很直觀。像我們自己在做硬件,不同版本迭代的時候設計會有差別,不同場景需求的硬件也有差別,但這些差別都可以被模型覆蓋住,把不同構型的優勢發揮出來,這樣對硬件的賦能就會很強。
“一腦多型”還有個好處,就是數據可以遷移。一個構型采集到的數據,可以遷移到另一個構型去用,讓不同本體之間能夠共享知識。此外在快速迭代和落地的時候也很有用,不管構型怎么變,只需要適配同一個操作模型就行了,模型會隨著適配的硬件越來越多而變得越來越強,類似科幻小說里的三體人,所有不同的身體都可以共享知識。
3.談難點:要讓模型把不同的技術和操作真正融合
甲子光年:我們注意到,你們發布的視頻里展示的是拼家具。在這個過程中,主要遇到的操作難點有哪些?拼家具是不是相對來說不太涉及柔性物體的操作?
機器人看說明書拼家具
邵林:拼家具這一大類任務還是會涉及到不少柔性相關的操作,只不過我們選的那把椅子沒有用到柔性物體。所以在這個過程中,難點主要體現在幾個方面。它需要雙手操作,也就是雙臂操作(dual-arm manipulation),這要求我們去解決物體重定向(object reorientation)的問題。在實時重定向的過程中,就會涉及到手內操作(in-hand manipulation),同時還要充分利用外部靈巧性(external dexterity),也就是機器人要理解并利用周圍環境的約束和條件,才能更好地完成任務。
另外,還涉及到一系列非常精細的動作,比如插接(peg insertion)這樣的步驟,這就和機器人裝配(robotic assembly)的過程相關。在這些過程中,需要對力的控制與感知(force control & sensing)有很高的要求,還有多模態的融合(multimodal fusion)。可以說,拼家具幾乎涵蓋了絕大部分機器人操作的難點。
但關鍵不在于這些具體的難點,而在于如何讓模型把不同的技術和操作真正融合。
因為在實際執行過程中,沒人會去區分現在是in-hand manipulation、還是external dexterity、還是object reorientation、還是peg insertion。大家真正關心的是任務能不能完成。
甲子光年:今年你們團隊拿下了ICRA的最佳論文(機器人操作與運動),主要是改進靈巧抓取的新方法,即引入 D(R,O) 表示法。可以介紹下嗎?
邵林:D(R,O)同時描述機械手和物體的相對位置關系,可以在預測時同時輸出機械手的狀態和形態。這樣一來,抓取速度快了很多。以前的方法可能要十幾秒甚至一分鐘以上,而我們可以在0.65秒內直接生成一個高自由度的抓取方案。
我們在感知上也做了提升,尤其是處理部分遮擋的物體時,算法魯棒性更強。
甲子光年:評審給出的核心貢獻理由是什么?
邵林:原文是“for contributions to learning-based representations for generalizable dexterous grasping across diverse objects and robots.”(謹此表彰其在開發基于學習的表征方法上的貢獻,該方法實現了跨多樣物體與機器人的泛化性靈巧抓取。)
甲子光年:回想下,目前為止,你的研究覆蓋了具身智能的哪些領域?
邵林:機器人操作本身就是一個復雜系統。它不僅涉及機器人學習,還包括硬件設計、觸覺感知與仿真、機器學習算法等多個方面。我在這個領域已經做了十多年,在這些方向上都有比較充分的積累,也和別人合作過靈巧手開發。
甲子光年:你一直深扎操作領域,那在你看來當前制約具身操作研究進一步發展的“癥結”在哪里?
邵林:我覺得核心問題在于,大家沒有真正從本質邏輯出發去思考:我們最終的目標是什么,以及怎樣的設計路線才能夠到達那個目標。
甲子光年:能否展開說說?是認為大家還沒想清楚嗎?
邵林:倒不是說完全沒想清楚,而是這件事還沒有被充分論證,沒有被系統性地回答。至少我看到的情況是這樣。
關于“癥結”,其實每個人看法都不一樣。在我看來,最大的挑戰是:如何在具身智能行業發展的特定條件下,去設計和打造具體的具身大模型。這其中包括硬件的設計、感知系統的構建(如視覺和觸覺信號)、數據來源的多樣性,以及不同數據來源下如何去設計AI模型。
從模型到感知,再從硬件到數據,所有的問題,都需要用更本質的視角重新思考:究竟什么樣的設計邏輯能夠把這些環節有效整合,從而真正走向我們想達到的目標。
甲子光年:你剛才提到了靈巧手。我們在2025世界機器人大會上發現,許多公司在演示疊衣服或完成簡單家務時,仍然采用夾子來操作。而Figure 2近期展示了機器人直接使用靈巧手完成疊衣服和將衣服放入洗衣機。夾子和靈巧手對比,有什么優劣勢?
邵林:夾子(two-finger gripper)本身就是末端執行器的一種。它的優勢是結構簡單,適合做pick and place(抓取與放置)這樣的基礎任務,如果只是用靈巧手的抓取做簡單的pick-and-place,其實有點浪費那么多自由度。而更復雜的manipulation(操作)就需要更多自由度。不過自由度不是越多越好,它一定有一個平衡點。
從更通用的角度看,靈巧手的設計潛力更大。畢竟機器人要融入人類社會,而人類社會里的工業品和家居用品,大多在設計時都考慮了人手的形狀和力量。如果末端執行器更接近人手,使用這些物體時限制會更小。
甲子光年:今年具身智能概念爆發,多家具身智能企業都獲得了大額融資,估值迅速攀升。融資和估值的增長似乎快于具身智能真正的落地速度。你怎么看這種現象?
邵林:對一家公司來說,能否真正完成落地是非常重要的。
落地其實反映了一系列問題,包括公司的技術棧是否扎實,能否和實際需求結合,能否實現大規模泛化和快速部署。這些都會體現公司的技術積累、研發進展、運作效率和團隊協作。行業需要花更多時間在落地場景上。
同時也要看到,具身智能不是快餐式的行業,需要足夠的耐心。企業要在短期落地和長期發展之間找到平衡,不能只看一個月能不能落地,也不能拖到十年都沒結果,關鍵是展現出決心和投入。
甲子光年:現在具身智能落地出現一些細分場景,比如零售場景、工業場景、康養場景。在你看來,哪些最有前景?
邵林:我不能給出一個絕對的答案,但落地場景要滿足三個條件:一是在該場景下具身智能技術和傳統自動化技術有足夠的差異度,二是該技術能否在短時間內穩定運行,三是能否帶來足夠的商業利潤。這三個點是判斷落地潛力的關鍵。
甲子光年:作為教授和創業者,對于在AI時代想要進入機器人領域的年輕人,你有什么建議嗎?
邵林:我的建議是:年輕人要盡可能拓展自己的知識體系。具身智能是連接虛擬與現實的重要橋梁,也是人工智能未來極為關鍵的發展方向。一旦相關技術真正成熟,將會深刻改變社會形態和個人的生活方式。但與此同時,這一領域所需要的技術和知識既要足夠深,也要足夠廣。
機器人系統本身極其復雜,它融合了電子硬件、傳感器、人工智能、大模型以及人機交互等多個方面。如果想在這一領域脫穎而出,必須具備全局化、體系化的思維。不一定要在每個方向都成為專家,但至少要理解并掌握不同領域的基本原理,并積累一定的實踐經驗。這樣在真正做決策時,才能從多個維度和視角進行綜合判斷,形成系統性的理解。這也是為什么我強調,年輕人要努力把自己培養成既有廣度、又有深度的“full-stack roboticist(全棧機器人學家)”。
(封面及文中圖片、視頻由受訪者提供)





京公網安備 11011402013531號