![]()
創(chuàng)建具有高度真實感的三維數(shù)字人,在三維影視制作、游戲開發(fā)以及虛擬/增強現(xiàn)實(VR/AR)等多個領(lǐng)域均有著廣泛且重要的應用。
盡管現(xiàn)有技術(shù)在從多視角圖片重建高質(zhì)量、可動畫化的三維人體模型任務中展現(xiàn)出諸多優(yōu)勢,但從單張參考圖像重建真實感三維數(shù)字人,依舊面臨技術(shù)復雜、資源消耗大的挑戰(zhàn)。
如何兼顧三維一致性與參考圖像一致性,重建出高質(zhì)量、高真實感的人物外觀與姿勢,以及如何生成高真實度且細節(jié)一致的服飾、人臉等,都是亟待解決的難題。
近期,中國科學院計算技術(shù)研究所、香港科技大學和英國卡迪夫大學的研究人員合作提出了一項基于單張參考圖像重建高斯網(wǎng)(GaussianMesh [1])數(shù)字人全身的技術(shù)HumanLift[2],相關(guān)技術(shù)論文已被 SIGGRAPH ASIA 2025 接收。
![]()
項目主頁:http://geometrylearning.com/HumanLift/
該項工作提出了一種融合三維視頻擴散模型和人臉增強的單圖高斯網(wǎng)數(shù)字人重建方法。通過此方法,用戶僅需輸入單張人體圖片,就能重建出高質(zhì)量、高逼真度的三維數(shù)字人,不僅能在不可見視角下準確估計人物外觀和服飾幾何細節(jié),還能保持多視角一致性,同時確保生成的三維模型符合參考圖像中的先驗信息。
下圖為基于單張參考圖像重建數(shù)字人方法的結(jié)果展示:
![]()
圖1 基于單張參考圖像重建三維高斯網(wǎng)(GaussianMesh)數(shù)字人結(jié)果
Part1 背景
早期單圖數(shù)字人重建方法主要分為顯式與隱式兩類。顯式方法通常依賴參數(shù)化模型,能夠?qū)θ梭w基礎(chǔ)形狀進行估計,但由于模板結(jié)構(gòu)固定,難以處理復雜衣著情況;隱式方法則通過隱式函數(shù)描述復雜幾何,重建質(zhì)量有所提升,但往往計算成本較高,且因缺乏有效先驗,生成紋理的真實感仍面臨挑戰(zhàn)。
近年來,隨著生成模型(如 Stable Diffusion [3])和神經(jīng)隱式渲染方法(如神經(jīng)輻射場 NeRF [4]、三維高斯?jié)姙R 3D-GS [5])的快速發(fā)展,快速構(gòu)建了二維圖像與三維空間之間的聯(lián)系,使得二維生成能力有效助力三維生成。
已有研究在一般物體的單視圖三維重建方面取得顯著進展,但受限于三維人體數(shù)據(jù)稀缺以及人物姿勢、服飾的復雜性,將這些方法拓展到高真實感三維人體建模領(lǐng)域,仍面臨諸多困難。
一些方法嘗試從參考圖片提取文本信息,并借助擴散模型與可微渲染技術(shù)進行建模,但受文本條件模糊性限制,難以準確還原精細服裝細節(jié),且優(yōu)化效率較低。隨著多視圖擴散生成技術(shù)的發(fā)展,研究者開始探索從單圖直接生成多視圖人體圖像,避免復雜優(yōu)化流程。
例如,將多視圖生成 [6] 與 3D 高斯?jié)姙R(3D-GS)結(jié)合為統(tǒng)一優(yōu)化模塊,然而這類方法因缺乏三維先驗,導致視角不一致問題。另一些方法則引入顯式三維人體先驗,結(jié)合生成模型以提升多視圖一致性,雖在服裝與姿態(tài)的真實性上有所提升,但由于面部在全身圖中占比過小,仍存在面部細節(jié)缺失、一致性與真實感不足的問題。
Part2 算法原理
HumanLift 的目標是:給定一張人物單張圖像 I,創(chuàng)建一個能夠捕捉逼真外觀和細微細節(jié)(如服裝紋理)的 3D 數(shù)字形象,同時包含清晰的人臉細節(jié),實現(xiàn)自由視角瀏覽。該方法通過兩個階段完成這一任務,其方法框架如下圖所示:
![]()
圖2 HumanLift 的方法框架圖
第一階段:多視角圖像生成
此階段旨在從一張日常拍攝的個人照片中生成逼真的多視角圖像。HumanLift 設(shè)計了一種具備 3D 感知能力的多視角人體生成方法。
為了確保對一般圖像的泛化能力,生成器的骨干網(wǎng)絡是基于目前的視頻生成模型 Wan2.1 [7] 構(gòu)建——該模型在大量 2D 通用視頻上完成訓練,具備強大的高保真視頻推斷能力。
HumanLift 基于該模型并引入額外的三維人體先驗,處理 2D 人體動畫任務,并繼承其預訓練權(quán)重。
具體而言,該階段設(shè)計了兩種專門針對人體優(yōu)化的模型——HumanWan-DiT(RGB)和 HumanWan-DiT(Normal),以增強不同視角的一致性和幾何細節(jié)。
同時,引入 SMPL-X 的多視角語義圖像作為 3D 先驗條件,并將其嵌入到 Wan2.1 中,提供 3D 引導。為了減少訓練內(nèi)存開銷的同時保持模型生成能力,方法采用低秩適應(LoRA)技術(shù)進行內(nèi)存高效的參數(shù)微調(diào)。
此外,通過一個由堆疊 3D 卷積層組成的輕量條件編碼器,對人體的三維先驗信息進行編碼,其網(wǎng)絡結(jié)構(gòu)如下圖所示:
![]()
圖3 HumanWan-DiT 網(wǎng)絡架構(gòu)
其中:
HumanWan-DiT(RGB):以 SMPL-X 的語義圖像為條件輸入,以人全身的 RGB 圖片為參考輸入,最終輸出人體多視角的 RGB 圖像;HumanWan-DiT(Normal):以 HumanWan-DiT(RGB)生成的多視角圖像為條件輸入,以人預測的法向圖片為參考輸入,最終輸出多視角的法向圖像。
第二階段:3D-GS 模型重建
該階段利用第一階段生成的多視角圖像,包括多視角的 Normal 圖片和 RGB 圖片,重建人體的 3D-GS 表示。
首先,該方法借助現(xiàn)有生成模型 [8] 對超分辨率的面部圖像進行多視角圖片生成,生成具有標準空間下相機姿態(tài)的高質(zhì)量多視角面部圖像。
在重建過程中,以生成的多視角人臉圖像和第一階段生成的多視角人體圖像作為監(jiān)督信號,基于高斯網(wǎng)表示(GaussianMesh [1])對三維高斯球的參數(shù)進行優(yōu)化。
需要特別注意的是,為確保面部渲染的準確性,需將面部圖像的相機姿態(tài)(標準空間)轉(zhuǎn)換到 SMPL-X 頭部(世界空間),以監(jiān)督面部部分的高斯球?qū)傩裕@得高質(zhì)量的人臉細節(jié)。
由于初始的 SMPL-X 與人體的 3D-GS 的位置上存在誤差,HumanLift 會根據(jù)每次迭代優(yōu)化后的 SMPL-X 的姿態(tài)參數(shù),從而動態(tài)調(diào)整面部相機姿態(tài),確保面部相機姿態(tài)與頭部的 3D 高斯球始終保持一致。
Part3 效果展示
In-the-wild 人體圖片重建數(shù)字人
為了展示 HumanLift 在真實拍攝人物圖片中的效果,對于每張參考圖像,我們的方法可以預測多視角的 RGB 圖片和 Normal 圖片。
結(jié)果表明,HumanLift 生成的多視角 RGB 圖像具有照片級真實感,多視角法向圖能精準反映人物及服飾的幾何細節(jié),且整體保持了良好的空間一致性。
為進一步展示 HumanLift 的泛化能力,圖4 呈現(xiàn)了更多人物的重建結(jié)果,包括不同服飾風格、不同拍攝場景下的人物案例。無論參考圖像的人物特征、服飾類型,HumanLift 均能穩(wěn)定生成高質(zhì)量、高一致性的三維數(shù)字人。更多的結(jié)果請訪問項目主頁。
圖4 不同服飾和衣物下的顏色和法向結(jié)果
消融實驗結(jié)果
為驗證各模塊的作用,圖5 展示了 HumanLift 的消融實驗結(jié)果,即對三種消融方法(禁用面部增強、禁用 SMPL-X 姿態(tài)優(yōu)化和禁用人體多視角法線圖監(jiān)督)的定性對比分析結(jié)果:
禁用面部增強:面部細節(jié)明顯缺失,真實感大幅下降;禁用 SMPL-X 姿態(tài)優(yōu)化:人體姿態(tài)與頭部相機位姿匹配度降低,頭部渲染效果偏離真實場景;禁用人體多視角法線圖監(jiān)督:服飾細節(jié)丟失嚴重,幾何結(jié)構(gòu)呈現(xiàn)不準確。
圖5 的實驗結(jié)果證明,面部增強模塊通過生成先驗顯著提升面部細節(jié)質(zhì)量;SMPL-X 優(yōu)化模塊不僅能有效調(diào)整人體姿態(tài)參數(shù),還能同步更新頭部相機位姿,引導 3D-GS 模型生成更符合真實感的頭部渲染效果;基于微調(diào) HumanWan-DiT(Normal)模型提供的法線監(jiān)督,能讓 3D-GS 表征在多視角一致法線圖像的指導下,更好地保留衣物細節(jié)。
![]()
圖5 不同策略下的消融結(jié)果
Part4 結(jié)語
隨著大模型和生成式人工智能的發(fā)展,單圖全身數(shù)字人重建問題迎來了新的解決范式。傳統(tǒng)重建方法存在渲染結(jié)果真實感不足、復雜衣物和姿勢難以精準重建等問題;而現(xiàn)有生成式方法,也難以在人物姿勢、服飾細節(jié)和人臉真實感與一致性重建之間實現(xiàn)平衡。
HumanLift 提出了一種有效的解決方案,通過微調(diào)基于三維擴散先驗的視頻生成模型和專門設(shè)計的人臉增強模塊。借助該方法,用戶無需進行繁瑣的數(shù)據(jù)處理,僅需輸入單張參考圖片,就能重建出高質(zhì)量、高逼真度的三維數(shù)字人——不僅能在新視角下準確估計人物外觀和服飾幾何,還能保持多視角一致性,同時確保生成的三維模型符合輸入圖像中的人物信息。
參考文獻:
[1] Lin Gao*, Jie Yang, Bo-Tao Zhang, Jia-Mu Sun, Yu-Jie Yuan, Hongbo Fu, Yu-Kun Lai. GaussianMesh: Real-time Large-scale Deformation of Gaussian Splatting. ACM Transactions on Graphics (SIGGRAPH Asia 2024), 2024, 43 (6), 200:1-17.
[2] Jie Yang, Bo-Tao Zhang, Feng-Lin Liu, Hongbo Fu, Yu-Kun Lai, Lin Gao*. HumanLift: Single-Image 3D Human Reconstruction with 3D-Aware Diffusion Priors and Facial Enhancement. ACM SIGGRAPH ASIA 2025, 1-12.
[3] Robin Rombach*, Andreas Blattmann*, Dominik Lorenz, Patrick Esser, Bj?rn Ommer. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022, 10684-10695.
[4] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM, 2021, 65(1): 99-106.
[5] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis. 3D Gaussian Splatting for Real-Time Radiance Field Rendering. ACM Transactions on Graphics, 2023, 42(4): 139:1-139:14.
[6] Yichun Shi, Yichun Shi, Peng Wang, Peng Wang, Jianglong Ye, Long Mai, Kejie Li, Xiao Yang. MVDream: Multi-view Diffusion for 3D Generation. ICLR 2024, 1-18.
[7] Wan Team, Alibaba Group. Wan: Open and advanced large-scale video generative models. CoRR abs/2503.20314 (2025).
[8] Heyuan Li, Ce Chen, Tianhao Shi, Yuda Qiu, Sizhe An, Guanying Chen, Xiaoguang Han. Spherehead: stable 3d full-head synthesis with spherical tri-plane representation. ECCV 2024 324-341.




京公網(wǎng)安備 11011402013531號