IT之家 11 月 11 日消息,11 月 10 日,斯坦福大學教授、WorldLabs 聯合創始人李飛飛發表長文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier(從文字到世界:空間智能是 AI 的下一個前沿)》。
李飛飛認為,當前以大型語言模型為代表的 AI 雖然擅長處理抽象知識,卻如同在“黑暗中行走”,缺乏對物理世界的真實理解。而空間智能 —— 即人類用以理解、導航并與三維世界交互的底層能力,將是實現機器真正智能的關鍵突破。

IT之家附原文大意如下:
1950 年,當計算機還只是自動算術和簡單邏輯時,艾倫?圖靈提出了一個至今仍在引起共鳴的問題:機器會思考嗎?他看到了別人看不到的東西,這需要非凡的想象力:智能有朝一日可能會被構建出來,而不是天生就有的。這一洞見后來引發了一場名為 AI (AI) 的不懈科學探索。在我自己從事 AI 工作的 25 年里,我仍然能從圖靈的愿景中獲得啟發。但我們離目標有多近了呢?答案并不簡單。
今天,大語言模型(LLMs)等領先的 AI 技術已經開始改變我們訪問和處理抽象知識的方式。然而,它們仍然是黑暗中的文字匠;口才好但缺乏經驗,知識淵博但沒有根基。空間智能將改變我們創造和互動真實世界和虛擬世界的方式 —— 徹底改變故事敘述、創造力、機器人技術、科學發現等等。這是 AI 的下一個前沿。
自我進入 AI 領域以來,視覺與空間智能一直是我探索的指南針。這也是我花費數年構建 ImageNet 的原因 —— 這是第一個大規模視覺學習與基準數據集,是現代 AI 誕生的三大關鍵因素之一,另外兩個是神經網絡算法和現代計算能力(如 GPU)。這也是我在斯坦福大學的實驗室過去十年將計算機視覺與機器人學習結合的原因。這也是我和聯合創始人賈斯廷?約翰遜、克里斯托夫?拉斯納、本?米爾登霍爾創建 World Labs 的原因:首次全面實現這一可能性。
空間智能:人類認知的支架
AI 從未如此令人興奮。大語言模型等生成式 AI 模型已經從研究實驗室走向日常生活,成為數十億人的創造力、生產力和溝通工具。它們已經展示了曾經被認為是不可能的能力,輕松地生成連貫的文本、大量的代碼、逼真的圖像,甚至短視頻片段。AI 是否會改變世界已經不再是一個問題。按照任何合理的定義,它已經改變了世界。
然而,仍有許多事物超出了我們的能力范圍。自主機器人的愿景仍然是引人入勝但具有推測性的,遠未達到未來學家長期以來承諾的日常生活用品的程度。在疾病治療、新材料發現和粒子物理學等領域大規模加速研究的夢想在很大程度上仍未實現。而真正理解并賦能人類創造者的 AI 的承諾,無論是對學習分子化學中復雜概念的學生、可視化空間的建筑師、構建世界的電影制作人,還是任何尋求完全沉浸式虛擬體驗的人來說,仍然遙不可及。
要了解為什么這些能力仍然難以捉摸,我們需要研究空間智能是如何演變的,以及它如何塑造我們對世界的理解。
長期以來,視覺一直是人類智能的基石,但它的力量源于更根本的東西。早在動物能夠筑巢、照顧幼崽、用語言交流或建立文明之前,簡單的感知行為就悄然引發了通往智能的進化之旅。
這種看似孤立的從外部世界收集信息的能力,無論是微弱的光芒還是紋理的感覺,都在感知和生存之間架起了一座橋梁,而且隨著世代的更迭,這座橋梁只會變得更加強大和復雜。神經元層層疊加,從這座橋梁中生長出來,形成了神經系統,這些系統解釋世界并協調生物體與其周圍環境之間的互動。
因此,許多科學家推測,感知和行動成為了驅動智能進化的核心循環,也是自然創造我們這個物種的基礎 —— 我們是感知、學習、思考和行動的終極體現。
空間智能在定義我們如何與物理世界互動方面起著根本性的作用。每天,我們都依靠它來完成最普通的行為:通過想象保險杠和路緣之間越來越窄的間隙來停車,接住扔過房間的一串鑰匙,在擁擠的人行道上行走而不會發生碰撞,或者在不看的情況下睡眼惺忪地將咖啡倒入杯子。
在更極端的情況下,消防員在不斷變化的煙霧中穿梭于倒塌的建筑物中,對穩定性和生存做出瞬間判斷,通過手勢、肢體語言和一種共享的專業本能進行交流,而這種本能是無法用語言替代的。孩子們在語言表達能力形成之前的幾個月或幾年里,通過與環境的有趣互動來學習這個世界。所有這些都以直觀、自動的方式發生 —— 這是機器尚未實現的流暢性。
空間智能也是我們想象力和創造力的基礎。從古代的洞穴繪畫到現代電影,再到沉浸式視頻游戲故事講述者在腦海中創造出獨一無二的豐富世界,并利用多種視覺媒體將其呈現給他人。無論是孩子們在海灘上建造沙堡,還是在電腦上玩 Minecraft,以空間為基礎的想象力構成了真實或虛擬世界中互動體驗的基礎。在許多行業應用中,物體、場景和動態互動環境的模擬為無數關鍵業務用例提供支持,從工業設計到數字孿生,再到機器人培訓。
歷史充滿了定義文明的時刻,其中空間智能發揮了核心作用。
在古希臘,埃拉托斯特尼將陰影轉化為幾何 —— 在亞歷山大測量一個 7 度的角度,恰好在太陽在西奈沒有投下陰影的時刻,以計算地球的周長。
哈格里夫的“珍妮紡織機”通過空間洞察革命性地改變了紡織制造:將多個紡錘并排放置在一個框架中,使一名工人能夠同時紡紗多根線,生產力提高了八倍。
沃森和克里克通過物理構建 3D 分子模型發現了 DNA 的結構,操縱金屬板和電線,直到堿基對的空間排列恰到好處。
在每一個案例中,當科學家和發明家必須操縱物體、可視化結構并推理物理空間時,空間智能推動了文明的進步—— 這些都無法僅通過文字來捕捉。
空間智能是我們認知建立的基礎。它在我們被動觀察或主動創造時發揮作用。它驅動著我們的推理和計劃,即使是在最抽象的主題上。
而且,它決定了我們的互動方式 —— 語言或行動,與他人或環境。盡管大多數人不每天像埃拉托斯特尼那樣發現新知,但思考方式相同:通過感官感知世界,再直覺理解其空間運作方式。
遺憾的是,今天的 AI 還沒有像這樣思考。
過去幾年確實取得了巨大的進步。多模態 LLMs(MLLMs)在文本數據之外,還使用大量多媒體數據進行訓練,已經引入了一些空間感知的基礎知識,如今的 AI 可以分析圖片、回答有關圖片的問題,并生成超逼真的圖像和短視頻。通過傳感器和觸覺技術的突破,我們最先進的機器人已經可以在高度受限的環境中開始操作物體和工具。
然而,坦率地說,AI 的空間能力仍然遠未達到人類水平。而且,其局限性很快就會顯現出來。最先進的 MLLM 模型在估算距離、方向、大小或旋轉物體時表現幾乎與隨機相同。它們無法導航迷宮、識別捷徑或預測基本物理規律。AI 生成的視頻雖然新興且非常酷,但是通常在幾秒鐘后就會失去連貫性。
雖然目前最先進的 AI 在閱讀、寫作、研究和數據模式識別方面表現出色,但在理解或互動物理世界時存在根本局限。我們對世界的看法是整體性的 —— 不僅僅是我們所看到的東西,還包括一切在空間上的關系、意義以及重要性。通過想象、推理、創造和互動(而不僅僅是描述)來理解這一點,是空間智能的力量。
沒有它,AI 就與它試圖理解的物理現實脫節。它無法有效地駕駛我們的汽車,無法在我們的家庭和醫院中引導機器人,無法為學習和娛樂實現全新的沉浸式和互動式體驗,也無法加速材料科學和醫學領域的發現。
哲學家維特根斯坦曾寫道,“我的語言的局限意味著我的世界的局限。”我不是哲學家,但我知道至少對于 AI 來說,不僅僅只有文字。空間智能代表著超越語言的前沿領域 —— 它是一種連接想象、感知和行動的能力,為機器真正提升人類生活開啟了可能性,從醫療保健到創造力,從科學發現到日常幫助。
AI 的下一個十年:構建真正具有空間智能的機器
那么,我們該如何構建具有空間智能的 AI 呢?如何才能創造出能夠像埃拉托斯特尼一樣用視覺進行推理、像工業設計師一樣精確地進行工程設計、像故事講述者一樣富有想象力地進行創作、以及像急救人員一樣流暢地與環境互動的模型?
構建具有空間智能的 AI 需要比 LLMs 更雄心勃勃的東西:世界模型,這是一種新型的生成模型,它在理解、推理、生成以及與語義、物理、幾何和動態復雜的世界(虛擬或真實)交互方面的能力遠遠超出了當今 LLMs 的范圍。
該領域尚處于起步階段,目前的方法包括抽象推理模型到視頻生成系統。World Labs 成立于 2024 年初,基于這樣的信念:基礎方法仍在建立中,這將成為未來十年的決定性挑戰。
在這個新興領域,最重要的是確立指導“發育”的原則。對于空間智能,我通過三個基本能力來定義世界模型:
1. 生成性:世界模型可以生成具有感知、幾何和物理一致性的世界
能夠解鎖空間理解和推理的世界模型也必須生成它們自己的模擬世界。它們必須能夠生成遵循語義或感知指令的、無限多樣且不同的模擬世界 —— 同時在幾何、物理和動態上保持一致 —— 無論它們代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應該根據其內在的幾何結構進行隱式還是顯式表示。
此外,除了強大的潛在表示之外,我認為通用世界模型的輸出還必須允許為許多不同的用例生成世界的顯式、可觀察狀態。特別是,它對現在的理解必須與它的過去緊密相連;與導致當前世界的先前狀態相連。
2. 多模態:世界模型在設計上是多模態的
正如動物和人類一樣,世界模型應該能夠處理各種形式的輸入 —— 在生成式 AI 領域中被稱為“提示”。給定部分信息,無論是圖像、視頻、深度圖、文本指令、手勢或動作,世界模型應該預測或生成盡可能完整的世界狀態。這需要以真實的視覺保真度處理視覺輸入,同時以同等的便利性解釋語義指令。這使得智能體和人類都能夠通過各種輸入與模型交流關于世界的信息,并獲得各種輸出作為回報。
3. 交互性:世界模型可以根據輸入的操作輸出下一個狀態
最后,如果動作和 / 或目標是世界模型的提示的一部分,那么它的輸出必須包括世界的下一個狀態,以隱式或顯式的方式表示。當僅給定一個動作(無論是否帶有目標狀態)作為輸入時,世界模型應產生與世界先前狀態、預期目標狀態(如果有)以及其語義含義、物理定律和動態行為相一致的輸出。
隨著空間智能世界模型在推理和生成能力方面變得更加強大和穩健,可以想象,在給定目標的情況下,世界模型本身不僅能夠預測世界的下一個狀態,而且還能夠根據新狀態預測下一個動作。
這一挑戰的范圍超過了 AI 以前面臨的任何挑戰。
雖然語言是人類認知中一種純粹的生成現象,但世界的運行規則要復雜得多。例如,在地球上,重力控制著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律約束著每一次相互作用。即使是最奇特、最具創造力的世界,也是由空間物體和主體構成的,它們遵循定義它們的物理定律和動態行為。要協調所有這些 —— 語義、幾何、動態和物理,都需要全新的方法。
表示一個世界的維度比像語言這樣的一維、順序信號的維度要復雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,需要克服幾個強大的技術障礙。在 World Labs,我們的研究團隊致力于朝著這個目標取得根本性的進展。
以下是我們目前的一些研究課題:
一種用于訓練的新的通用任務函數:定義一個像 LLMs 中預測下一個 Token 一樣簡單而優雅的通用任務函數,長期以來一直是世界模型研究的核心目標。它們的輸入和輸出空間的復雜性使得這種函數本質上更難以公式化。但是,雖然還有很多東西需要探索,但這種目標函數和相應的表示必須反映幾何和物理定律,尊重世界模型作為想象和現實的基礎表示的根本性質。
大規模訓練數據:訓練世界模型需要比文本管理復雜得多的數據。好消息是:海量數據源已經存在。互聯網規模的圖像和視頻集合代表著豐富、易于訪問的訓練材料 —— 挑戰在于開發能夠從這些二維圖像或基于視頻幀的信號(即 RGB)中提取更深層次空間信息的算法。過去十年的研究表明,擴展定律將語言模型中的數據量和模型大小聯系起來;世界模型的關鍵在于構建能夠以相當規模利用現有視覺數據的架構。此外,我不會低估高質量合成數據和深度和觸覺信息等額外模態的力量。它們在訓練過程的關鍵步驟中補充了互聯網規模的數據。但前進的道路取決于更好的傳感器系統、更強大的信號提取算法和更強大的神經模擬方法。
新的模型架構和表征學習:世界模型的研究將不可避免地推動模型架構和學習算法的進步,尤其是在當前的多模態大型語言模型(MLLM)和視頻擴散范式之外。這兩種模型通常將數據標記化為一維或二維序列,這使得簡單的空間任務變得不必要地困難 —— 比如計算短視頻中獨特的椅子數量,或者記住一個小時前房間的樣子。替代架構可能會有所幫助,例如用于標記化、上下文和記憶的 3D 或 4D 感知方法。例如,在 World Labs,我們最近在名為 RTFM 的實時生成幀模型上的工作已經證明了這種轉變,該模型使用空間定位的幀作為空間記憶的一種形式,以實現高效的實時生成,同時保持生成世界的持久性。
顯然,在通過世界建模完全釋放空間智能之前,我們仍然面臨著嚴峻的挑戰。這項研究不僅僅是一種理論上的實踐,它還是一個新型創意和生產力工具的核心引擎。World Labs 內部的進展令人鼓舞。
最近,我們與數量有限的用戶分享了 Marble 的驚鴻一瞥,這是首個可以通過多模態輸入進行提示的世界模型,可以生成并維護一致的 3D 環境,供用戶和故事講述者在他們的創意工作流程中探索、互動和進一步構建。我們正在努力盡快向公眾開放!
Marble 只是我們在創建真正具有空間智能的世界模型道路上的第一步。隨著進展的加速,研究人員、工程師、用戶和商業領袖都開始認識到它所蘊含的非凡潛力。下一代世界模型將使機器達到一個全新的空間智能水平 —— 這一成就將釋放當今 AI 系統中仍然很大程度上缺失的關鍵能力。





京公網安備 11011402013531號