![]()
這項由清華大學人工智能學院王盛元、清華大學深圳國際研究生院鄭智衡,以及清華大學電子工程系商宇等多位研究者聯合完成的突破性研究,于2025年11月發表在計算機視覺領域頂級期刊上,論文編號為arXiv:2511.18005v1。感興趣的讀者可以通過該編號查詢完整論文。
當我們在電腦上玩城市建設游戲時,總是驚嘆于那些精美逼真的虛擬城市。但你是否想過,如果有一天,計算機能夠像經驗豐富的城市規劃師一樣,自動創造出與真實世界幾乎完全一致的3D城市,那會是怎樣的場景?清華大學的研究團隊剛剛讓這個看似科幻的想法變成了現實。
他們開發的RaiseCity系統就像一位擁有超能力的建筑師,能夠僅憑真實世界的地理信息和街景照片,就在計算機中重新"建造"出一座完整的城市。這不是簡單的復制粘貼,而是真正理解城市結構、建筑風格和空間布局后的智能重構。更令人驚嘆的是,生成的虛擬城市不僅外觀逼真,連建筑物的紋理細節、道路網絡的復雜連接,甚至是街頭的路燈、交通標志等小物件都應有盡有。
這項研究的革命性意義在于,它首次讓計算機具備了像人類城市規劃師一樣的"智慧"。傳統的3D城市建模需要大量專業人員花費數月甚至數年時間,而RaiseCity能在相對較短的時間內自動完成這一切。更重要的是,生成的城市不是虛構的,而是基于真實世界數據的精確重現,這為自動駕駛汽車訓練、城市規劃模擬、虛擬現實體驗等眾多領域開辟了全新可能。
研究團隊采用了一種全新的"智能體"設計理念,讓AI系統能夠像人類專家一樣分步驟、有計劃地完成復雜任務。系統首先充當"偵察兵",收集和分析真實世界的地理數據;然后變身為"建筑師",設計和想象建筑物的完整外觀;接著成為"工程師",將2D設計轉換為3D模型;最后扮演"城市規劃師",將所有元素有機組合成完整的城市景觀。整個過程還配備了"質量監督員",持續檢查和改進每個步驟的輸出質量。
實驗結果顯示,RaiseCity生成的3D城市在視覺質量、空間準確性和真實度方面都大幅超越了現有方法,在綜合感知質量評估中獲得了超過90%的勝率。這意味著大多數人在看到RaiseCity生成的虛擬城市時,都認為它比其他方法生成的城市更真實、更美觀。
一、智能建筑師的工作流程
RaiseCity的工作過程就像一個經驗豐富的建筑師團隊在協作完成一個大型城市項目。整個系統分為六個相互配合的工作階段,每個階段都有明確的職責和目標。
首先是"規劃階段",系統像項目經理一樣制定整體工作計劃。它將復雜的城市建設任務分解為若干個可管理的小任務,并決定每個任務的執行順序和方式。這種分而治之的策略確保了每個細節都能得到充分關注,同時避免了因任務過于復雜而導致的混亂。
接下來是"感知階段",系統化身為"城市調研員",深入收集真實世界的城市信息。它會從OpenStreetMap等地理信息系統中獲取建筑物位置、道路網絡、植被分布等基礎數據,同時通過在線地圖API獲取對應區域的街景全景圖像。但這些原始數據往往包含許多干擾因素,比如臨時停放的車輛、施工現場、茂密的植被遮擋等,系統需要像有經驗的調研員一樣,從復雜的信息中篩選出真正有用的部分。
"想象階段"是整個流程中最具創新性的部分。由于街景照片通常只能捕捉到建筑物的一個側面,而且經常被各種物體遮擋,系統需要像人類建筑師一樣,基于有限的信息"想象"出建筑物的完整外觀。這里的"想象"并非隨意臆測,而是基于對建筑學原理、城市規劃規律和視覺美學的深度理解。系統會結合從OpenStreetMap獲取的建筑輪廓和體積信息,推斷建筑物的整體結構,然后生成一個完整、合理的建筑外觀圖像。
"反思階段"就像一個嚴格的質量檢查員,對前一階段生成的建筑設計進行全面評估。它會從結構合理性、紋理真實性和美學質量三個維度進行評分,對于不符合標準的設計會要求重新制作。這種自我糾錯機制有效避免了錯誤的累積,確保最終輸出的質量。
"3D生成階段"將2D的建筑設計圖轉換為真正的三維模型。這個過程類似于雕塑家根據設計圖制作立體雕塑,不僅要準確還原建筑的幾何形狀,還要為其添加逼真的材質紋理。系統使用了先進的Hunyuan3D模型,能夠生成高精度的3D網格模型和高質量的紋理貼圖。
最后的"場景設計階段"就像城市總規劃師,將所有獨立的建筑模型按照真實世界的空間關系組裝成完整的城市場景。這不僅包括建筑物的精確定位和朝向調整,還涉及道路網絡的建模、植被的分布、街頭設施的布置,甚至是動態交通流的模擬。
整個流程的精妙之處在于各個階段之間的緊密配合和相互驗證。每個階段都會為下一階段提供必要的信息和約束條件,確保最終生成的城市既符合真實世界的地理布局,又具備足夠的視覺真實感和細節豐富度。
二、從街景照片到完整建筑的智能重構
將一張普通的街景照片轉換為完整的3D建筑模型,這個過程蘊含著令人驚嘆的技術創新。傳統方法往往只能簡單地復制照片中可見的部分,但RaiseCity展現了一種更加智能的方法。
考慮這樣一個場景:當我們站在街道上拍攝一棟建筑時,照片中通常只能看到建筑的正面,而且經常會被前景的樹木、路燈或車輛遮擋。更重要的是,我們無法看到建筑的背面、側面和頂部的完整情況。對于人類而言,我們可以根據建筑學常識和經驗來推測建筑的整體外觀,但讓計算機做到這一點卻是極大的挑戰。
RaiseCity通過一種類似人類認知過程的方法解決了這個問題。系統首先會像經驗豐富的建筑師一樣分析可見部分的建筑特征,包括窗戶的排列模式、外墻的材質紋理、建筑的總體風格等。然后,它會調用大量的建筑學知識和世界常識,推斷出建筑物不可見部分的可能外觀。
這個推斷過程并非憑空想象,而是基于嚴格的邏輯和約束。系統會考慮建筑物的結構完整性要求,比如承重墻的分布、樓層的對稱性等。同時,它還會參考從OpenStreetMap獲得的建筑輪廓和高度信息,確保生成的建筑模型與實際的空間尺寸相匹配。
特別值得一提的是,系統具備了處理遮擋問題的能力。當街景照片中的建筑被樹木或其他物體部分遮擋時,系統能夠"透過"這些遮擋物,推斷出被遮擋部分的建筑特征。這種能力來源于對大量建筑圖像的學習,使系統能夠識別和分離前景遮擋物與背景建筑。
為了確保生成建筑的質量,系統還引入了多重驗證機制。每個生成的建筑圖像都會經過結構合理性檢查,確保建筑符合基本的物理定律和建筑學原理。紋理真實性評估則檢查建筑表面材質的一致性和真實感。美學質量評估考慮建筑的視覺協調性和整體美觀度。
如果某個建筑在任何一個評估維度上表現不佳,系統會自動重新生成,并提供詳細的改進建議。這種迭代優化過程確保了每個建筑都能達到高質量標準。
整個重構過程的另一個創新點是對建筑周邊環境信息的智能利用。系統不僅關注建筑本身,還會分析周圍的城市環境,比如相鄰建筑的風格、街道的寬度、植被的分布等,以此來推斷目標建筑應該具有的特征。這種上下文感知能力使生成的建筑更好地融入整體城市環境。
三、3D模型生成與紋理繪制的技術突破
從2D建筑設計圖到真實感3D模型的轉換過程,就像雕塑家將平面草圖變為立體雕塑一樣充滿藝術性和技術挑戰性。RaiseCity在這個環節展現了其技術實力的核心所在。
傳統的3D建模往往需要專業建模師花費大量時間手工制作每一個細節,但RaiseCity實現了這一過程的完全自動化。系統采用了最新的Hunyuan3D技術作為核心引擎,這是一個專門為高保真3D生成而優化的先進模型。
3D幾何形狀的生成是第一個關鍵步驟。系統需要根據2D設計圖中的視覺信息,推斷出建筑物的三維幾何結構。這個過程類似于考古學家根據平面圖紙重建古建筑,需要對建筑的空間邏輯有深刻理解。系統會分析建筑的輪廓線、表面法線、深度信息等幾何特征,然后構建出完整的3D網格模型。
生成的3D模型不僅要在形狀上準確,還要在拓撲結構上合理。這意味著模型必須是一個封閉的、無漏洞的幾何體,能夠在各種3D軟件和游戲引擎中正常使用。為了達到這個目標,系統配備了專門的后處理流程,能夠自動檢測和修復常見的幾何錯誤,比如懸浮的幾何片段、多余的地面平面等。
紋理繪制是另一個技術難點。簡單地將2D圖像貼到3D模型表面往往會產生嚴重的扭曲和不一致問題,因為3D表面的幾何形狀與原始2D圖像的透視關系并不完全匹配。RaiseCity采用了智能紋理合成技術,能夠根據3D模型的幾何特征,生成與之完美匹配的紋理貼圖。
這個紋理生成過程考慮了光照條件、材質屬性、表面法線等多個因素。系統會分析原始2D圖像中的光影效果,然后將這些效果適當地映射到3D模型的不同表面上。同時,它還能夠為原本不可見的表面生成合理的紋理,比如建筑的背面和側面。
質量控制在整個3D生成過程中起到了關鍵作用。系統會從多個角度渲染生成的3D模型,檢查是否存在明顯的幾何錯誤或紋理問題。如果發現問題,它會自動調整模型參數或重新生成有問題的部分。
特別值得注意的是,RaiseCity生成的3D模型完全兼容標準的計算機圖形學流水線,可以無縫導入到各種3D軟件、游戲引擎和虛擬現實平臺中。這種兼容性確保了生成的城市模型能夠廣泛應用于不同的下游任務,從建筑可視化到游戲開發,從城市規劃到虛擬旅游。
生成過程的另一個亮點是對不同細節層次的支持。系統能夠根據具體需求生成不同精度的模型,從適合遠距離觀看的簡化模型到支持近距離檢視的高精度模型,滿足不同應用場景的性能要求。
四、真實世界空間布局的精確重現
將獨立的3D建筑模型組裝成完整的城市場景,這個過程就像玩一個巨大的3D拼圖游戲,但難度要復雜得多。每個建筑不僅要放在正確的位置,還要確保朝向準確、尺寸合適,并且與周圍環境協調一致。
RaiseCity在這個階段展現了其對真實世界空間關系的深度理解。系統首先從OpenStreetMap獲取精確的地理坐標信息,這些數據就像城市的"骨架",定義了每個建筑的基本位置和輪廓。但僅有這些信息還遠遠不夠,因為真實的城市空間關系遠比簡單的坐標位置復雜。
建筑物的精確定位是一個多約束優化問題。系統需要確保每個建筑不僅位于正確的地理坐標上,還要考慮其與相鄰建筑的相對關系。比如,商業街上的店鋪通常會齊平排列,住宅區的房屋會保持適當的間距,而高層建筑周圍會留出足夠的空間用于綠化和停車。
建筑朝向的確定同樣重要。在真實世界中,建筑的朝向往往遵循特定的規律:住宅傾向于朝南以獲得更好的采光,商鋪通常面向主要街道以吸引顧客,而工業建筑的朝向則主要考慮交通便利性。RaiseCity通過分析建筑類型、周圍道路網絡和街景照片中的視角信息,智能推斷出每個建筑的最合理朝向。
尺寸匹配是另一個關鍵技術挑戰。由于3D生成模型產出的建筑可能與真實尺寸存在差異,系統需要進行智能縮放以確保模型與實際建筑的尺寸相匹配。這個過程不是簡單的等比例縮放,而是考慮了建筑的不同部分可能需要不同的縮放比例,以保持視覺的真實感。
除了建筑物本身,RaiseCity還能夠重現城市的其他重要元素。道路網絡的建模基于OSM數據,但系統會對這些原始數據進行顯著優化,生成具有正確車道數量、路面紋理和交通標線的精細道路模型。
城市中的小型基礎設施同樣得到了細致的處理。路燈、交通標志、垃圾桶、長椅等街頭設施都會根據真實城市的分布規律進行自動布置。系統通過分析街景圖像,學習這些設施的典型分布模式,然后在生成的城市中復現這些模式。
植被的處理展現了系統對城市生態的理解。不同類型的植被會根據其生長習性和城市規劃原則進行分布:行道樹沿著街道有序排列,公園綠地集中分布大型喬木,而小型灌木則點綴在建筑周圍。
動態元素的加入為靜態的3D城市注入了生命力。RaiseCity集成了交通流模擬系統,能夠在生成的道路網絡上模擬真實的車輛和行人流動。這些動態元素不僅增強了視覺真實感,還為自動駕駛訓練和城市交通規劃提供了寶貴的仿真環境。
整個空間布局過程的最終目標是創建一個既符合地理真實性又具有視覺吸引力的虛擬城市。生成的城市不僅在鳥瞰圖上與真實世界高度一致,在街道級別的體驗上也能提供真實的城市漫游感受。
五、性能評估與質量驗證
評估一個虛擬城市的質量就像評價一件藝術品一樣復雜,需要從多個維度進行綜合考量。RaiseCity的研究團隊設計了一套全面的評估體系,既包含客觀的數據指標,也融入了主觀的感知評價。
空間布局準確性是評估的基礎維度。研究團隊使用了學習感知圖像塊相似度(LPIPS)和邊緣交并比(E-IoU)等指標來量化生成城市與真實世界的空間對應關系。這就像用精密儀器測量建筑模型與原始藍圖的吻合度一樣,能夠客觀反映系統在空間還原方面的準確性。實驗結果顯示,RaiseCity在這些指標上達到了與現有最佳方法相當甚至更好的表現。
視覺質量評估則關注生成城市的美觀度和真實感。研究團隊采用了LAION美學預測器來評估生成場景的藝術質量,這個工具能夠模擬人類對圖像美感的判斷。同時,他們還使用了先進的視覺語言模型GPT-5作為"虛擬評委",從幾何合理性、紋理質量、物體關系、整體視覺效果和保真度等多個角度對生成的城市進行評分。
在直接對比評估中,RaiseCity展現了壓倒性的優勢。當讓評估模型在RaiseCity和其他現有方法生成的城市之間進行選擇時,RaiseCity獲得了超過90%的勝率。這意味著在絕大多數情況下,人們都認為RaiseCity生成的城市更真實、更美觀、質量更高。
定性分析提供了更直觀的質量對比。研究團隊展示了RaiseCity與幾個代表性基線方法的對比結果。早期的SGAM方法生成的城市存在明顯的形狀保真度差、紋理分辨率低、空間關系不合理等問題,而且其基于神經3D的方法限制了視角的自由度。CityDreamer雖然能從OSM數據生成3D城市場景,但建筑幾何過于簡化,紋理粗糙且經常不現實,難以包含植被或街邊物體等輔助元素。
SynCity采用網格化策略,雖然單個網格的輸出具有合理的視覺吸引力,但在網格邊界處存在明顯的不連續性,且這種基于網格的策略難以擴展到大場景,也難以整合細粒度對象或動態元素。CityCraft雖然能生成高精度建筑模型,但忽略了模型間的空間關系,導致不現實的沖突布局,而且其基于檢索的方法無法創建連貫的、現實對齊的3D世界。
UrbanWorld在布局準確性和視覺保真度方面有所改善,但生成的3D幾何粗糙,大多數建筑被呈現為基本的立方體或其組合,建筑紋理質量低,缺乏精細細節。
相比之下,RaiseCity在建筑模型精度、紋理保真度、整體布局合理性和準確性方面都顯示出明顯優勢。生成的城市不僅單個建筑質量高,整體城市景觀也更加協調一致。
智能體設計的有效性也得到了專門驗證。研究團隊比較了使用智能體自動選擇和處理數據與使用人工策劃數據的效果。結果顯示,智能體在2D圖像質量方面達到了最佳性能,在3D對象構建的紋理質量方面也優于所有其他方法。這證明了智能體設計在處理復雜多模態信息方面的優越性。
跨城市泛化能力測試表明,RaiseCity能夠有效應用于不同的城市布局,無需特定任務調優。生成的場景在不同地理環境下都保持了高幾何一致性和語義真實感,支持直接用于下游應用如城市可視化、自動導航和多智能體仿真。
六、實際應用前景與技術價值
RaiseCity的技術突破為眾多實際應用領域開辟了新的可能性。這項技術的價值不僅體現在其技術先進性上,更在于它能夠解決現實世界中的具體問題和需求。
自動駕駛技術是RaiseCity最直接的受益者之一。傳統的自動駕駛系統訓練依賴于大量真實道路數據的收集,這個過程不僅成本高昂,還存在安全風險和數據覆蓋不全的問題。RaiseCity生成的高保真虛擬城市為自動駕駛系統提供了安全、可控的訓練環境。在這些虛擬環境中,研究人員可以模擬各種罕見或危險的交通場景,比如惡劣天氣條件下的駕駛、復雜路口的通行、突發事故的處理等,這些場景在現實中很難安全地重現。
城市規劃領域同樣能從這項技術中獲得巨大價值。傳統的城市規劃往往依賴于平面圖紙和簡單的3D模型,規劃師和市民很難直觀地理解規劃方案的實際效果。RaiseCity能夠快速生成高質量的城市3D模型,讓規劃師能夠在虛擬環境中測試不同的規劃方案,評估新建筑對城市景觀的影響,優化交通流線設計。更重要的是,這些逼真的3D模型能夠幫助公眾更好地理解和參與城市規劃決策。
游戲開發和虛擬現實產業是另一個重要的應用領域。傳統的游戲城市建模需要大量美術師手工制作每個建筑和場景元素,開發周期長且成本高昂。RaiseCity能夠自動生成基于真實世界的游戲場景,不僅大大降低了開發成本,還能為玩家提供更加真實和熟悉的游戲環境。虛擬旅游應用也能利用這項技術,讓用戶在家中就能體驗世界各地的城市風貌。
建筑可視化和房地產展示也是重要的應用方向。建筑師和開發商可以利用RaiseCity快速創建項目周邊環境的3D模型,幫助客戶更好地理解新建筑在實際環境中的效果。這種可視化不僅提高了設計溝通的效率,還能幫助發現潛在的設計問題。
科研教育領域同樣受益匪淺。城市地理學、建筑學、交通工程等專業的學生和研究人員可以利用這些高質量的虛擬城市模型進行各種研究和學習活動。研究人員可以在虛擬環境中測試新的城市管理策略、交通優化算法、環境保護措施等,而無需在真實城市中進行昂貴且可能造成干擾的實驗。
應急管理和災害預防是另一個具有重大社會價值的應用領域。RaiseCity生成的精確城市模型可以用于災害模擬,比如洪水擴散、火災蔓延、地震影響等。應急管理部門可以利用這些模擬結果制定更有效的疏散路線、救援計劃和防災策略。
技術創新方面,RaiseCity展現的智能體框架為其他復雜AI任務提供了寶貴的設計思路。這種將大任務分解為小任務、每個任務由專門的AI模塊處理、并通過反思和迭代不斷優化的方法,可以應用于其他需要多步驟推理和創作的AI應用中。
數據生成和標注也是一個重要的技術價值點。RaiseCity能夠生成大量高質量、多樣化的城市場景數據,這些數據可以用于訓練其他AI模型,比如目標檢測、場景理解、導航算法等。與人工標注相比,這種自動生成的數據不僅成本更低,還能確保數據的一致性和準確性。
從商業價值角度來看,RaiseCity代表的技術方向有望形成新的產業生態。從3D內容制作服務到虛擬現實平臺,從智慧城市解決方案到教育科研工具,都可能因為這項技術的普及而獲得新的發展機遇。
RaiseCity的開源策略進一步放大了其技術價值。研究團隊承諾開放完整的源代碼和生成的3D城市資源,這將使更多的研究者和開發者能夠基于這項技術進行創新,加速相關應用的發展和普及。
說到底,RaiseCity不僅僅是一項技術創新,更像是一個能夠連接虛擬世界與現實世界的橋梁。它讓計算機第一次具備了像人類規劃師一樣理解和重構城市空間的能力,這種能力的影響將遠遠超出技術本身,深入到我們生活、工作和娛樂的方方面面。無論是讓自動駕駛汽車在虛擬城市中安全訓練,還是讓城市規劃師在3D環境中測試設計方案,又或是讓游戲玩家在逼真的虛擬世界中探險,RaiseCity都為這些應用提供了前所未有的技術基礎。
隨著技術的不斷完善和應用的逐步推廣,我們有理由相信,虛擬城市將在不久的將來成為我們數字生活中不可或缺的一部分。就像今天我們已經習慣了在線地圖和導航服務一樣,明天我們可能會習慣在虛擬3D城市中進行各種活動和體驗。RaiseCity的出現,標志著我們向這個未來邁出了重要的一步。
Q&A
Q1:RaiseCity是什么?
A:RaiseCity是清華大學團隊開發的AI智能體系統,能夠自動根據真實世界的地理信息和街景照片生成逼真的3D虛擬城市。它就像一個擁有超能力的建筑師,能夠理解城市結構并在計算機中重新"建造"出完整的城市,包括建筑物、道路、植被和各種城市設施。
Q2:RaiseCity生成的虛擬城市有多逼真?
A:實驗顯示RaiseCity在視覺質量評估中獲得了超過90%的勝率,意味著大多數人都認為它比其他方法生成的城市更真實美觀。生成的城市不僅建筑外觀逼真,連紋理細節、道路網絡、街頭設施甚至動態交通都應有盡有,幾乎達到了照片級的真實感。
Q3:RaiseCity可以用來做什么?
A:RaiseCity有廣泛的應用前景,包括為自動駕駛汽車提供安全的虛擬訓練環境、幫助城市規劃師測試設計方案、為游戲開發提供真實的場景素材、支持虛擬旅游體驗,以及用于建筑可視化、應急管理模擬、科研教育等多個領域。





京公網安備 11011402013531號