就在幾天前,美國卡耐基梅隆大學(CMU)的團隊獲得了國際計算機視覺大會 ICCV 的年度最佳論文獎。
這項研究來自 CMU 朱俊彥助理教授、劉暢流副教授和德瓦·拉馬南(Deva Ramanan)教授聯合團隊,他們提出了一種新方法 BrickGPT,首次通過端到端的方式,從文本提示生成符合語義、物理穩定且實際可行的積木裝配模型。
簡言之,他們將搭積木變成一個寫句子的過程。比如,你只需要用文字描述“一把吉他”,BrickGPT 就可以生成模型結構,并提供詳細的步驟說明,這樣你可以按照這些指導用積木一步步搭建出這把吉他。
值得關注的是,這些設計不是虛擬創意而是真正能夠實現現實制造。除了能夠通過手工組裝,還可以讓機器人自動組裝。
相關論文題目為《從文本生成物理穩定且可建造的積木結構》(Generating Physically Stable and Buildable Brick Structures from Text)[1]。
![]()
圖丨相關論文(https://arxiv.org/abs/2505.05469)
那么,這種新方法有哪些獨特的創新呢?
現有大多數 3D 生成方法主要關注視覺效果,包括形狀的逼真程度、外觀細節等,同時更多聚焦在單個整體,如 3D Mesh。盡管也有一些工作中加入了物理約束,但往往聚焦整體結構性質,如質心位置。這類物理約束相對容易表達且可以被現有的物理引擎模擬出來,因此較容易融入到模型學習過程中。
在 BrickGPT 的工作中,研究團隊更多聚焦在拼裝結構的物理約束,即單個物體不再是一個整體,而是由多個部件組裝而成。這類結構在生活中更普遍存在,如制造、家居、電器等無處不在。
如果忽略物理世界的組裝限制,一個看起來完美的模型,在現實中很可能沒辦法組裝,甚至無法存在——要么是結構部位容易倒塌,要么是某些部分懸空沒有支撐。這些組裝件的物理限制往往更復雜,不容易表示且很難被現有的仿真器模擬出來。
為解決物理分析限制的問題,研究團隊借助積木,希望通過拼裝結構來探索物理穩定性和可實現性。他們提出一種核心思路:把搭積木變成一個寫句子的過程。
![]()
圖丨BrickGPT 概覽(https://avalovelace1.github.io/Bri)
該論文共同第一作者、CMU 博士生鄧康樂對 DeepTech 表示:“只要你知道要把哪塊積木放到哪個具體的地方,搭積木的每個步驟都可以用文本清晰地表達出來。這樣我們就可以用大模型學習如何用語言的形式來表達搭積木的過程。”
但是,要讓模型能夠理解物理世界,僅靠模型學習是不夠的。因此,研究人員在生成過程中還用到了顯式物理屬性。由于現有物理引擎無法模擬拼裝積木的物理特性,他們將積木的物理屬性公式轉變為一個優化問題,通過求解受力分布,直接把物理屬性嵌入到模型中,從而讓模型理解積木的物理屬性。
需要了解的是,語言模型在寫句子的過程中可能會犯錯,因為它對物理事實知之甚少,其并不理解搭出來的積木結構背后的物理性質和物理規律。因此,它可能會生成一些在物理世界中不可能存在的積木結構,例如飄在空中的積木或在空間上交疊的積木。
為解決該問題,研究團隊首先將搭建積木的過程用結構化表示,即盡可能精簡地表達積木塊的尺寸,包括長、寬和它的物理空間位置,以讓模型可以更好地理解空間上的位置關系。然后,他們還引入了物理約束,用顯式的物理分析方法明確告訴模型,所生成的結構是否穩定或在物理世界中是否可能存在。
具體而言,如果模型生成的結構是不穩定的、可能會倒塌的,就需要去掉其中不穩定的結構,讓模型更改并重新生成一個能夠通過物理判別的結構。通過這樣的強制性策略,使模型的結果能夠符合物理世界的規律。
![]()
(https://avalovelace1.github.io/BrickGPT/)
為確保數據的多樣性,研究人員還構建了一個全新數據集 StableText2Brick,包含 4.7 萬個穩定的積木結構,涵蓋 2.8 萬個來自 ShapeNet 數據集的不同 3D 物體。基于該數據集,能夠生成不同的積木布局,即便形狀相同,也可以通過不同的積木組合來實現。此外,他們還會對每個不同的結構進行穩定性分析,并只保留穩定的結構。
另一方面,由于基于文本來生成積木結構,只有積木結構數據是不夠的。所以研究團隊使用了 GPT-4o 模型來為每個積木結構匹配高質量文本信息。他們把積木渲染成多角度的 2D 圖片,然后利用該多模態的語言模型根據這些圖片生成符合的描述文本。
“在這個過程中,我們讓語言模型盡可能生成不同長度及維度的描述,比如 10 個詞以內、20 個詞以內的描述。這樣,我們的數據集在文本多樣性方面也得到了補充和提升。”該論文共同第一作者、CMU 博士生劉瑞軒告訴 DeepTech。
![]()
圖丨機器人組裝積木(該團隊)
該技術為 AI 在實體制造和創意設計的應用提供了新的思路,可應用于創意、設計、教育領域等多個領域。
在教育領域,孩子們可基于 BrickGPT 用語言來描述一個積木模型,并自動生成這個積木模型。不僅能激發其創造力和想象力,還可以同時學習到物理知識和空間結構原理。
在創意設計領域,可能一些人經常會產生不錯的機械裝置設計創意,但受限于不會畫機械圖紙,也無法確認這些圖紙在物理上是否可行,BrickGPT 便可作為一種高效的工具。需要了解的是,生成模型并不是要取代人類的創意,而是幫助人們顯著降低門檻、更高效地實現設計想法。
![]()
(https://avalovelace1.github.io/BrickGPT/)
這項研究涉及計算機科學、物理學、機械工程,機器人學等多個領域。巧合的是,其中的兩位 PI 都是清華大學和美國加州大學伯克利分校的校友。朱俊彥先后在美國麻省理工學院從事博士后研究以及在 Adobe Research 擔任研究員。目前他的研究方向是計算機視覺、圖形學、計算攝影和生成模型。在本次研究中,其課題組的重點是為生成模型提供支持。
劉暢流在美國斯坦福大學完成博士后研究后,來到 CMU 任教,并成為 2024 年“35 歲以下科技創新 35 人”(MIT Technology Review Innovators Under 35)中國區入選者之一。她的研究方向包括機器人學習與操作、具身智能、安全控制和形式化方法。在本次研究中,她的課題組聚焦于機器人技術,包括物理分析、機器人操作和制造。
展望未來,該團隊表示,他們更長遠的目標是探索一種全新的、由生成模型、具身智能驅動的創造范式。這項研究的價值遠不止于生成積木,實際上,我們生活中所有的物體本質上都是一種拼裝結構。因此,研究團隊的終極目標是通過生成模型與機器人技術降低設計門檻和制造門檻,讓一切皆可“生成式制造”。
BrickGPT 是該團隊向此范式邁出的第一步,他們表示目前也正在積極探索其他方向,例如與 CMU 助理教授李驕陽合作研究多機器人協作的大型復雜裝配。同時團隊也感謝 Richard King Mellon Foundation 以及 CMU Manufacturing Future Institute 對項目研究的初期支持。
參考資料:
1. 相關論文:https://arxiv.org/abs/2505.05469
2. 代碼和模型:https://avalovelace1.github.io/BrickGPT/
3. Ava Pun 個人主頁:https://avapun.com/
4. 鄧康樂個人主頁:https://dunbar12138.github.io/
5. 劉瑞軒個人主頁:https://waynekyrie.github.io/
6. Deva Ramanan 個人主頁:http://www.cs.cmu.edu/~deva/
7. 朱俊彥個人主頁:https://www.cs.cmu.edu/~junyanz/
8. 劉暢流個人主頁:https://icontrol.ri.cmu.edu/people/changliu.html
排版:劉雅坤





京公網安備 11011402013531號