在人工智能視頻生成領域,盡管技術日新月異,但仍面臨著一系列挑戰,其中最為突出的便是時空一致性問題。這一問題如同一道枷鎖,束縛著AI視頻技術向商業化邁進的步伐,導致生成的視頻中常常出現物體位置錯亂、空間邏輯不連貫以及遮擋關系錯誤等現象。
近日,群核科技在其首屆技術開放日(TechDay)上,隆重推出了兩款旨在解決上述難題的新模型——SpatialLM 1.5與SpatialGen。這兩款模型不僅代表了群核科技在空間智能領域的最新研究成果,更為整個行業帶來了全新的技術范式。
SpatialLM 1.5是一款基于大語言模型訓練的空間語言模型,它打破了傳統大語言模型對物理世界理解的局限,能夠不僅理解文本指令,還能生成包含空間結構、物體關系以及物理參數的“空間語言”。這一特性使得SpatialLM 1.5能夠生成富含物理正確性的結構化信息場景,且能夠快速批量產出多樣化的符合要求場景,為機器人路徑規劃、避障訓練等領域提供了豐富的數據支持。
在活動現場,群核科技首席科學家周子寒通過演示展示了SpatialLM 1.5在機器人養老場景中的應用。當輸入“去客廳餐桌拿藥”的指令后,模型不僅準確識別了相關物體,還自動規劃出了最優行動路徑,展現了機器人在復雜家庭環境中執行任務的巨大潛力。
而SpatialGen則是一款專注于“生成與呈現”的多視角圖像生成模型。它基于擴散模型架構,能夠根據文字描述、參考圖像以及3D空間布局,生成具有時空一致性的多視角圖像,并進一步生成3D高斯(3DGS)場景并渲染漫游視頻。在群核科技的體驗區,記者親眼見證了SpatialGen如何將一張靜止的老屋照片和一張3D布局草圖,轉化為一段可360°漫游的動態空間視頻,靜止的場景仿佛被賦予了生命,生動逼真。
這兩款模型的發布,對于電商、設計、電影等多個行業來說,無疑是一劑強心針。這些行業的AI創作者們長期面臨著視角切換導致的時空一致性問題,使得生成的視頻質量大打折扣。而SpatialLM 1.5與SpatialGen的推出,有望從根本上解決這一問題,推動AI視頻技術向更高層次發展。
知名導演、AIGC創作者神思遠在活動現場表示,盡管目前AI視頻生成工具層出不窮,但在人物一致性與時空一致性問題上仍難以滿足影視級要求。他期待群核科技的新模型能夠為電影行業帶來更加高效、可控的AI解決方案,加速電影制作的工業化進程。
群核科技AI產品總監龍天澤也透露,他們正在研發一款基于3D技術的AI視頻生成產品,并計劃在今年內正式發布。這款產品將深度融合3D能力,通過構建3D渲染與視頻增強一體化的生成管線,有望顯著彌補當前AIGC視頻生成中時空一致性不足的問題。

據悉,SpatialLM 1.5與SpatialGen將逐步在HuggingFace、GitHub、魔搭社區等平臺面向全球開發者開源。其中,SpatialGen已在技術開放日當天開放下載使用,而SpatialLM 1.5也將以“SpatialLM-Chat”的形式完成開源。這一舉措無疑將為全球開發者提供更為廣闊的技術探索空間,共同推動AI視頻技術的創新發展。





京公網安備 11011402013531號