![]()
作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com
人工智能正在吟詩作畫,我們人類卻在打掃衛生。
這句話幾乎描述出了今天所有人對AI的困惑,一邊是模型底層技術的突破,另一邊卻是AI進入真實世界后的無力感。一個驗證碼能摧毀一個壓縮全世界知識的AI大腦,一個垃圾桶能繞暈一個擁有30多個自由度的人形機器人。
但AI的發展,并不應該如此“見光死”。
群核科技聯合創始人黃曉煌在近期群核TechDay上描述出這個現狀后,他也展示了群核對解決這個挑戰的最新動作。
這家擁有全球最大室內空間智能數據資源的公司,在8月25日舉辦了自己的TechDay,其中的重頭戲就是再度開源了兩款空間智能模型。
第一個是SpatialLM 1.5,它是群核此前在GTC期間發布的SpatialLM的最新迭代版本,此前的模型開源后,立刻爬上HuggingFace 開源模型榜前三,作為群核重要的空間語言模型,這一次它完成了從底層開始的重塑,并增加了交互能力;
另一個則是一款全新的空間生成模型,SpatialGen。它的樣貌更接近大家熟悉的視頻生成模型,但它想解決一件其他視頻模型沒能解決的問題——時空一致性。
對于習慣了一些一驚一乍的模型發布的人們來說,這兩個模型的氣質很是不同,它們并非試圖在數字世界里生成更逼真圖像或視頻的炫技產品,而是開始從更底層的邏輯出發,想要為解決AI的“見光死”問題做些微小但深刻且真實的貢獻。
1
只有群核能提供的空間智能新思路
在TechDay上,群核首席科學家周子寒現場演示多個demo。其中一個的場景很有代表性——當他輸入指令“幫我生成一個適合老人居住的臥室”,SpatialLM 1.5的系統不僅理解了“老人”這一模糊概念,在場景中放置了輪椅,而且還能根據“需要一個帶扶手的單人床”的追問,精準地從素材庫中找到對應模型并放置在合理的位置。
在另一個demo里,模型甚至能根據“幫我規劃從臥室床邊到客廳餐桌的路徑”的指令,自動生成最優路線,直觀地展示了其在具身智能訓練中的巨大潛力。
這一切交互的背后,是模型正在生成和編輯一段段精確的“空間語言”代碼。
在全球科技巨頭對“世界模型”(World Model)的狂熱追逐中,主流路徑是“視覺優先”。無論是OpenAI的Sora,還是Google的Genie,它們都試圖通過暴力計算(Scaling Law),讓模型從海量的視頻數據中“悟”出物理規律。這是一種歸納法,期望通過模擬無數水滴的下落,來理解重力。
而群核此次發布的兩個模型,則可以說提供了另一條路徑:“結構優先”。
SpatialLM的核心,是一種AI哲學的根本性轉變。當前主流的多模態技術,在處理3D信息時,往往是將其“拍扁”成點云或圖像Token,再與語言Token對齊,這是一種“翻譯”或“轉碼”。總顯得不那么直接。
群核選擇了一條不同的道路。“如果我們更多的是把它當作是CAD(計算機輔助設計)的一個逆過程的話,你就會天然覺得它就應該是一個語言模型。”群核首席科學家周子寒說。
這一視角的轉換至關重要。在CAD的邏輯里,所有三維物體和空間關系,本質上都是由點、線、面等參數化、結構化的幾何指令構成的。它不是一堆模糊的像素或點云,而是一段精確的、可被機器理解和執行的代碼。
群核的SpatialLM 也按照這個路線不停演進,在SpatialLM時它更多先瞄準空間理解的任務建立自己的能力,一個有趣的細節是,在SpatialLM 1.5上,群核開始叫它“空間語言模型”,它開始從理解延展到更多能力,最明顯的,是可以支持用戶通過對話交互系統SpatialLM-Chat進行可交互場景的端到端生成。
這是一個全新的思路,也只有擁有大量結構化空間語言資源的群核能夠去做更底層的嘗試。
如果說SpatialLM是從“語言”和“結構”的維度為AI進入物理世界打下地基,那么一同發布的SpatialGen則從“視覺”和“生成”的維度,提供了一套同樣深刻但路徑迥異的解法。
SpatialGen更側重于視覺真實感的一致性,但它沒有去“模擬”一個連續的世界,而是選擇去“構建”一個一致性的空間。其核心是一個多視角擴散模型,能夠根據一張參考圖和空間布局,生成任意指定相機點位的、空間上完全一致的多張圖片。
當Sora們試圖通過模擬海量水滴下落來理解重力時,群核選擇先定義清楚杯子和桌面的參數與關系。前者追求的是視覺上的“看起來像”,而后者追求的是物理上的“本來就是”。
“你可以任意指定這個相機的軌跡,它可以是跳躍的,”周子寒解釋道,“它不用過多地依賴這種時間的連續性。”這種“跳躍”的能力,恰恰是對當前視頻生成模型“一致性”困境的一種巧妙解答——連續生成視頻,意味著模型必須處理A點到B點之間所有幀的連貫性,這極大地增加了出錯的概率。“你未來要從A到B,你要讓A到B一致,你要把A到B中間所有的(幀)都得做,那你犯錯的概率就會高得多,”周子寒說。但從實際效果出發,跳躍式是個更好的選擇。
當天展示的另一個demo也生動地詮釋了這種差異:
當你給SpatialGen提供一個老房子的幾張照片,它隨即能生成具有時空一致性的多視角圖像,再進一步生成老房子的3D高斯場景和渲染漫游視頻。
SpatialGen先基于這些單張或有參考布局的圖片,去生成多視角的空間一致性的圖片模型,然后再進一步通過工作流去獲取3D場景高斯點云以及最后的比較靈活視角的漫游視頻。
在生成的視頻中,你可以自由地在這個老房子內“全息漫游”。無論是墻上的老舊海報,還是柜子上擺放的物件,在任意視角和運鏡下都保持著驚人的一致性。
而在另一個有一些“劇透”未來方向的demo中,你可以隱約看到這些模型結合在群核的空間智能能力之下,會怎樣進化下去。
在一個彩蛋demo里,群核的三位公司創始人化身舞者,在十幾個分鏡和復雜的360度運鏡下,人物形象、動作與背景空間都保持了高度的連貫與合理,徹底告別了其他AI視頻模型中常見的“群魔亂舞”式崩壞。
對于包括商業視頻在內的,對一致性有更嚴格追求的場景來說,它能發揮的作用都足夠讓用戶們充滿想象了。
1
來自真實世界的AI公司,才能解決AI進入真實世界的問題
在群核這場熱鬧的TechDay里體驗和了解這家公司在空間智能上做的一切工作,你有時還是會感到神奇。
過往人們所熟悉的酷家樂,和它一直以來在做的事情,就這樣在AI爆發的時代統一到了空間智能這件事上。你能明顯感到包括SpaitalLM1.5和SpatialGen的獨特之處,你越了解這家公司,會越發明顯感到許多事只能群核來做。
回看這家公司的發展歷程,似乎有某種偶然性,但如果你回看整個AI發展歷程里起到關鍵作用的諸多公司,會發現偶然很多時候是有它內在的邏輯存在的。
對群核來說,故事的起點是GPU。黃曉煌從NVIDIA出來創業,最初想用GPU加速物理世界的渲染,卻遇到了一個大挑戰,在當時,同時降低算力成本和提升速度是個難題。群核想出的解法是基于云端搭建GPU服務器,利用云端高性能計算來實現仿真渲染,這帶來了酷家樂這個云端3D設計工具。
在當時來看,它是一個創始團隊的技術背景和技術信仰與現實業務需求之間結合的產物,但今天來看,它為群核在物理世界高質量數據的沉淀開了頭。
隨著數據的積累,群核也開始意識到這是一個富礦,2018年群核發布了InteriorNet數據集,立刻有硅谷的科技公司找上門,對這個數據集表現出極大興趣,這進一步讓群核確認這些3D數據的價值。
之后,隨著酷家樂成為全球最大的空間設計軟件,群核的數據資源更加豐富,而酷家樂背后的思路也讓群核在今天找到的數據獲取的“第三路徑”有了可能。
對于數據的收集來說,傳統意義上第一條路徑是成本高昂的實地掃描,第二條路徑是人工合成數據,過去酷家樂的沉淀也大多來自這條路,然后它們再通過群核的平臺SpatialVerse合成數據引擎去完成處理。而SpatialLM1.5代表的第三條路是參數化空間場景的自動生成,由此帶來完全不同的數據,以及對這些數據的使用方式。
如周子寒分享的,酷家樂本身對結構化數據的理解與其他基于視覺的路線就有不同。酷家樂的業務邏輯——讓設計師用參數化的工具進行室內設計,并確保設計方案可以被精準地生產和制造——決定了其產生的數據必須是結構化的。
這埋下了將空間數據以“語言”的形式來理解的技術思路,并最終走出了很有群核風格的第三條路。
歷史總有相似的韻腳。英偉達并非為了AI而發明GPU,Google也并非為了AI而做搜索,它們的偶然最終都成為了必然。一個原因,是源于對底層技術的持續追求。另一個更重要的原因,是在AI每一次遇到關鍵挑戰時,它們恰好已經在那里了——當AI需要海量并行計算,英偉達的GPU成了關鍵;當AI需要壓縮世界知識,Google的互聯網數據成了最好的養分。
而今天,AI進入物理世界,開始面對“見光死”的挑戰,當它面對真實環境充滿無力感時,群核這樣來自真實物理世界的AI公司,以及它在酷家樂時期無心插柳積累下的結構化數據,成為了重要的解藥。它某種程度上像是空間數據版的Google,也像是空間智能里的英偉達。酷家樂時期,業務看起來圍繞著具體的家裝場景,但“群核”這個名字所代表的對計算和技術的初心從未改變。正是這種堅持,最終將看似接地氣的業務,轉化為了當AI走進物理世界時最稀缺的真實數據資源,成就了今天的群核。酷家樂為代表的生長時期,給今天群核帶來了挖不盡的空間智能富礦,讓它成為一個空間智能的“寶藏公司”。
“我們發現這些大量積累的數據是可以用來訓練模型的,”黃曉煌在TechDay上完整地闡述了這個邏輯閉環,“這些模型,又可以進一步強化我們工具的能力,我們在過程當中就發現它形成了一個數據飛輪。”
“我們希望它是一個能夠自己反饋的系統,未來它會對自己擺的東西去反思,然后有推理和思考的能力,然后讓這些新的數據滾動起來,再讓模型變得更強。”周子寒說。
AI時代的酷家樂和它一整個產品體系,會長在這個空間智能系統之上。據黃曉煌透露,群核在SpatialLM的基礎上開發了新的編輯工具,而這個建在新的大模型基礎上的工具,設計的智能程度和正確率都比原有的傳統AI強很多,同時它可交互,可修改、可互動,這些都是傳統的2D AI所無法實現的。
而未來的群核,也會變成一個空間智能更底層基礎設施般的存在——
“我們定位是全球空間智能服務提供商,我們主要做的是空間編輯工具,由工具來生成海量的數據,由數據再來生成大模型,以此來形成一個循環,滾動發展。”黃曉煌說。
空間智能是解決真實世界問題的技術,它需要一個生長在真實世界的公司來完成這個使命,一個十分接地氣,又從未放棄技術理想的群核,正迎來它的關鍵時刻。
![]()
點個愛心,再走 吧!





京公網安備 11011402013531號