作者丨陳鷺伊
編輯丨岑峰
具身智能的“智能”如何體現?
這是雷峰網-AI科技評論啟動“具身智能十人談”欄目以來,在拜訪這一領域的諸多研究者時最常提到的話題之一。
具身智能,簡而言之,是指將智能系統與物理實體相結合,使其能夠感知環境、進行決策并執行動作的一門技術。其關鍵詞是“具身”,即不僅僅是抽象的算法和數據,而是要通過物理形態與世界進行交互。
然而,要實現真正的“智能”,具身智能系統需要一個強大的“大腦”來支撐其復雜的決策和學習過程。這里的“大腦”并非生物學意義上的器官,而是指一種能夠處理和理解多模態信息的高級計算模型——多模態大模型。這種模型能夠整合視覺、聽覺、觸覺等多種感官數據,以及語言、指令等抽象信息,為機器人提供更為豐富和全面的環境理解能力。
2022年11月,ChatGPT的問世展現了大型語言模型(LLM)的突破,不僅激發了對大模型在各行各業應用的無限想象,也將“具身智能”推到了聚光燈下,引發了對機器如何更自然地與人類及環境互動的深入探討,激發了新一波多模態大模型研究的浪潮。
自然語言處理(NLP)是大模型底層核心技術之一。哈爾濱工業大學是NLP研究的老牌工科強校,大模型研究技術積累十分雄厚。哈工深自研的自主可控的多模態大模型——九天,受到業界的廣泛關注。九天具有模態覆蓋面廣、多模態數據集十分頂尖、模態聯系能力強、可擴展性強等顯著特點,在多項評測指標中表現頗佳。九天對視頻-文本處理部分和圖片-文本處理部分相關論文獲 ACM MM 2022的最佳論文獎。
哈工深的多模態大模型與具身智能研究由聶禮強教授領銜,他過去15年的科研專注于多模態內容分析與理解,深信多模態感知、融合和理解的重要性。他意識到傳統機器人自主決策能力弱,而多模態大模型雖擅長理解決策卻無法與物理世界互動。這啟發了他將兩者結合,以機器人為軀干、多模態大模型為大腦,實現優勢互補。
有觀點認為,多模態大模型技術將推動機器人“大腦”快速升級,其進化速度遠超機器人本體,或將在未來2至3年內越過技術成熟點,進入規模化產業落地階段。

近日,AI科技評論拜訪了聶禮強教授,與他探討了具身智能領域的研究趨勢、產學研一體面臨的挑戰等話題。以下即為AI科技評論與聶禮強就具身智能這一話題的訪談實錄,限于篇幅,AI科技評論進行了不改原意的編輯:
"大腦"驅動具身智能發展
AI科技評論:您如何看待最近的具身智能熱潮?當大家在研究和討論具身智能時,究竟有哪些技術期待和應用期待?
聶禮強:具身智能熱潮是人工智能大模型技術與機器人技術的結合產物。人工智能中大模型技術的突破,為機器人提供了新的“大腦”,而機器人與物理世界的互動也為大模型帶來了新的著力點,兩者相互促進、優勢互補。
具身智能領域的研究趨勢也在不斷改變。在大模型賦能的起步階段,一些工作是把人工智能領域的新成果直接用在機器人上,但不夠深入。例如,多模態大模型常見的模態是視覺與文本,但機器人接觸的信息更廣——視覺、聽覺、觸覺、人的指令、機械臂的位姿等等,未來大模型需要去適配具身智能任務在物理現實世界感知交互的特點,把豐富的多種模態信息統籌融合起來。
近期大模型驅動的具身智能的研究也逐漸深化,正從初步應用轉向深度融合,尤其是機器人運動控制的集成,這是技術發展的關鍵,也是一大挑戰。隨著研究的深化,我們期待大模型能更全面地理解和控制機器人的身體,實現更深層次的物理交互。
如果具身智能領域的挑戰都得到了有效解決,其應用潛力是巨大的。具身智能應用可以把智能體融合到智能制造、服務業等各個垂直領域,比如工業巡檢、家政服務等,讓具身智能引領全新的制造業、服務業等產業升級。隨著技術的成熟,其應用場景將更加廣泛。
AI科技評論:多模態大模型在具身智能中扮演著怎樣的角色?
聶禮強:多模態大模型是具身智能機器人的“大腦”,至關重要。它位于發展的上游,為機器人提供智能。沒有這個“大腦”,下游的機器人“身體”也只是一個失去智能的機械裝置。性能強大的多模態大模型,正是推動具身智能領域向前發展的關鍵動力。
多模態大模型超越了單一模態不足以應對復雜的實際場景的限制,極大地提升了機器人的感知與理解能力,使機器人能夠更準確、全面地理解復雜場景和任務。此外,多模態大模型在大規模數據預訓練后學習到了豐富的人類知識,賦予了機器人自主規劃決策的能力。
多模態大模型還優化了人機交互。讓機器人能通過語音、手勢等多模態信息準確人類意圖,讓我們與機器人之間的交互更自然。多模態大模型強大的泛化能力也為機器人的自主學習能力打下了基礎,幫助機器人適應多變任務,在向成為具有自主學習和適應環境變化的能力的真正意義上的智能體邁了一大步。

我認為多模態大模型作為“大腦”影響著機器人的方方面面,其對機器人的上游賦能打通了具身智能落地的關鍵阻礙,是具身智能領域進步的的源頭活水。
未來趨勢:人性化與協作
AI科技評論:您認為多模態大模型在具身智能領域的未來發展有哪些趨勢?
聶禮強:多模態大模型在具身智能領域的未來發展將帶來革命性的變化,使AI系統在與物理世界的互動和理解方面更加人性化。可預見到以下幾個關鍵趨勢將在未來幾年塑造這一領域:
多模態感知:模型將無縫整合觸覺、嗅覺等多種感官信息,提供更全面的環境理解,接近人類的感知能力。
模型輕量化:開發高效的多模態大模型架構,利用模型壓縮和知識蒸餾技術,提高具身系統的靈活性和效率。
遷移與少樣本學習:具身AI將展現在遷移學習和少樣本學習方面的進步,快速適應新任務而無需大量數據訓練。
基底技術發展:模型將更好地連接抽象知識與物理現實,推動常識推理和因果理解的突破,增強長期記憶和持續學習能力。
自然交互能力:提升人與AI機器的交流直觀性和上下文感知能力,使機器人能夠進行復雜對話,解釋環境和行動。
世界模型構建:創建全面的內部世界表示,用于具身AI的規劃、預測和決策。
神經形態計算融合:多模態大模型與神經形態計算方法結合,模擬生物神經網絡,提高能源效率和適應性。
這些趨勢預示著,未來具身AI系統將通過多模態大模型在理解和與世界互動方面更加接近人類,開辟廣泛應用和領域的可能性。
AI科技評論:您認為多模態大模型目前面臨的最大的挑戰是什么?
聶禮強:目前多模態大模型的最大的挑戰是如何在保持連貫性、效率和倫理考慮的同時,整合和對齊多種數據模態。不同模態如文本、圖像、音頻和視頻具有獨特的特征,對齊它們是一個根本性難題,需要通過預訓練、微調和架構設計等手段來實現有效共享表示。
大型多模態模型所需的計算資源需求隨規模和模態的增加呈指數級增長,引發了可擴展性、可訪問性和可部署性的問題,可能會限制模型的普及。
數據質量和多樣性也是一個重大障礙。獲取大規模、高質量且無偏見的多模態數據集既耗時又昂貴的過程。
模型的復雜性也使得確保可解釋性和可理解性變得愈發困難。這對于模型在關鍵應用中的可信度至關重要。
最后,多模態大模型在倫理好社會影響方面也面臨挑戰。如錯誤信息、深度偽造和隱私侵犯等問題,需要制定相應的保障措施和倫理指南,更需要各方面的關注和合作。
學術與產業的共舞
AI科技評論:您如何看待當前學術界與產業界在具身智能研究方面的合作?
聶禮強:具身智能研究需要學術界的基礎研究和創新思維與工業界的落地經驗和數據相結合,共同克服復雜的科學和技術挑戰。最近1-2年的具身公司,不少是高校孵化的。高校孵化公司的增多顯示了學術界在推動技術商業化方面的關鍵作用。
政府的支持為校企合作提供了動力,通過鼓勵校企聯合申請項目,提供了必要的經濟和平臺支撐。聯合實驗室的建立促進了學術與工業的深度融合,加速了知識的交流和創新。
為加強合作,我們需要進一步對齊學術研究與產業需求,開發標準化的具身智能研究平臺和協議,以及培養能夠連接兩界的人才。作為教育者,我們有責任培養學生在知識、技術和研究方法上的跨界能力。
總體來看,學術界與工業界的合作在具身智能領域展現出巨大潛力,通過政府支持、聯合實驗室和研究與需求的對齊,高校和企業將共同推動具身智能的創新發展。
AI科技評論:具身智能在學術界和工業界的前景如何,您及團隊有哪些具體的研究案例?
聶禮強:具身智能在學術和工業界均備受青睞,開辟了前沿的交叉研究新徑。無論是AI研究者還是機器人研究者,都在積極探索這一領域。工業界對大模型賦能機器人的挑戰和應用前景持樂觀態度。

(若愚·九天項目無人廚房場景技術驗證)
哈工深在具身智能領域有顯著研究進展,如若愚·九天項目,它在無人廚房場景中實現了技術驗證,突破了多模態大模型驅動群體智能等關鍵技術。我們成功結合了多模態大模型與機器人實體,開發了具備感知、交互、規劃和行動能力的機器人系統。
這一過程中,我們面臨了多模態信息融合、復雜任務規劃和精確動作控制等挑戰,每個步驟都需要細致研究。例如,大模型必須有效處理多種模態信息,機器人“大腦”需要準確規劃任務,而“小腦”則要負責精確的動作執行。這些研究成果為具身智能的應用提供了堅實的基礎。
AI科技評論:哈工深在具身智能領域有什么樣的未來發展規劃?
聶禮強:目前,基于哈工深目前在多模態大模型、機器人的研究基礎,我們制定了系統的具身智能研究規劃,包括智能體的感知、規劃、操作、群體協同等多個方面,涵蓋機械臂、無人機和人形機器人等各種智能體形態。
總之,具身智能是一個充滿前景的研究領域,哈工深將繼續推動科技創新和人才培養,力求為學術界和工業界做出更大貢獻。
大腦+小腦范式的產業實踐
AI科技評論:若愚科技曾提出“給機器人裝上大腦”的口號,您如何看待大腦和小腦的協同關系,以及未來的研究方向?
聶禮強:若愚科技是從哈工深孵化出去的一家高科技公司,強調的是機器人認知系統(大腦)與運動控制系統(小腦)的協同工作。多模態大模型九天負責處理理解、感知、規劃和決策任務,而小腦則執行精確的物理運動和交互。這種協同確保了機器人能夠根據高層指令進行具體控制,并將執行反饋回大腦以調整策略,對適應性和穩健性至關重要。
若愚未來的研究將集中在加強這種協同作用上,集成模型規劃與低級控制算法,包括開發錯誤修正和在線學習機制,使大腦能夠根據小腦的執行結果快速調整,對長序列任務規劃進行優化,并通過多模態感知和自適應學習提高機器人的感知和決策能力。此外,若愚還將探索如何利用大腦的高級理解能力來提升小腦的性能,如通過語義理解指導抓取規劃或軌跡優化。
AI科技評論:若愚科技在多模態大模型和具身智能方面有哪些創新和突破?是如何將多模態大模型技術應用到產品中的?
聶禮強:若愚科技在多模態大模型驅動的具身智能上的開發上取得了突破,創新性地實施了大腦-小腦范式,整合了自然語言處理、視覺感知和行動規劃,使機器人在多個領域具有智能“腦”。
核心技術包括增強檢索大模型去幻覺規劃,允許機器人根據自然語言指令自主執行復雜任務,如無人廚房中的訂單處理和上菜協調。在3D感知上,使機器人能在無需預注冊的情況下理解和操控復雜環境中的物體,顯示出高靈活性和魯棒性。
若愚科技還實現了通過擴散模型驅動的模仿學習,使機器人能夠學習復雜技能而無需編程。這些技術被集成到我們的九天機器人“大腦”中,支持多模態交互,并通過標準化的以云+端交付方式,通過API+DK(SDK),與產業鏈伙伴合作,應用于食品加工、分揀、組裝和3C產業等。
若愚已經在特種領域部署了“九天”機器人,利用模仿學習高效執行商業任務。未來,若愚將根據場景需求,推動多智能體規劃的產品化,實現多機器人協同下的業務閉環。
AI科技評論:您如何評價目前具身智能技術在實際場景中的應用效果?
聶禮強:具身智能技術已在多個領域展現顯著效益。在制造業,它提升了機器人的互動能力,增強了生產效率和靈活性,減少了人為錯誤。物流和倉儲領域中,具身智能機器人通過自主導航和深度學習算法,優化了物品分類和搬運流程,提升了物流速度并降低了成本。
服務業也見證了具身智能的效益,如酒店和餐飲業中的迎賓、點餐和送餐機器人,它們提升了顧客體驗并節約了人力成本。盡管存在技術成本、環境適應性及倫理方面的挑戰,具身智能技術在實際場景中的應用效果是積極的,展現出廣泛的前景,但仍需持續改進與優化以適應不斷變化的市場需求。
雷峰網





京公網安備 11011402013531號