![]()
新智元報(bào)道
編輯:LRST
LayerComposer革新了個(gè)性化圖像生成,讓用戶像在Photoshop里一樣自由操控元素位置、大小,解決傳統(tǒng)方法交互性與多主體擴(kuò)展難題,實(shí)現(xiàn)更自然、高效的創(chuàng)作,推動(dòng)個(gè)性化生成邁向主動(dòng)交互新階段。
大型擴(kuò)散模型(如 Stable Diffusion)讓我們能夠從文字生成高保真的圖像。但當(dāng)用戶希望「生成我和我的朋友們?cè)诓煌瑘?chǎng)景中的照片」時(shí),現(xiàn)有的個(gè)性化生成方法(如 DreamBooth、IP-Adapter)仍面臨兩個(gè)根本問(wèn)題:
缺乏交互性:無(wú)法自由控制人物的空間位置、大小與關(guān)系。
難以擴(kuò)展到多主體:每多一個(gè)人,內(nèi)存和算力就線性增長(zhǎng)。
![]()
LayerComposer的目標(biāo),就是要打破這兩大限制,讓用戶可以直觀地控制在哪里放置什么樣的元素,進(jìn)行可控且高效的個(gè)性化生成。
![]()
項(xiàng)目地址:https://snap-research.github.io/layercomposer/
論文地址:https://arxiv.org/abs/2510.20820
「一張由雪人和三位女孩組成的合照」—— 你可以像在Photoshop里一樣,放置、縮放、鎖定角色,然后讓模型完成剩下的工作。
LayerComposer的三大設(shè)計(jì)
![]()
分層畫布(Layered Canvas)
每個(gè)人物、物體或背景都放在獨(dú)立的RGBA層中(包含透明通道的圖片),這樣可以:
避免人物遮擋導(dǎo)致的信息丟失;
通過(guò)透明裁剪(Transparent Latent Pruning)顯著降低計(jì)算量;
支持任意數(shù)量的主體組合。
類似于在Photoshop里,每一層就是一個(gè)獨(dú)立的角色,隨意移動(dòng)、縮放或刪除。
鎖定機(jī)制(Locking Mechanism)
每一層都可以選擇「鎖定(Lock)」或「解鎖(Unlock)」:
鎖定層 → 模型必須高保真地保留該層,僅允許細(xì)微的光照調(diào)整;
解鎖層 → 模型可以根據(jù)文字描述自由生成姿態(tài)、表情或交互。
你可以鎖定背景,讓人物隨提示變化,也可以鎖定一個(gè)角色姿勢(shì),生成其他人圍繞他互動(dòng)。
這種「可選保真度」讓 LayerComposer 比以往方法更接近人類的創(chuàng)作流程。
模型–數(shù)據(jù)共設(shè)計(jì)(Model–Data Co-Design)
![]()
LayerComposer的鎖定機(jī)制無(wú)需修改網(wǎng)絡(luò)結(jié)構(gòu)。
研究人員通過(guò)「位置嵌入」(positional embedding)與「數(shù)據(jù)采樣策略」共同實(shí)現(xiàn):
鎖定層共享相同的空間編碼;
解鎖層使用獨(dú)立的編碼,以避免重疊混淆。
這種輕量化設(shè)計(jì),可以在現(xiàn)有擴(kuò)散模型(如 FLUX Kontext)上直接適配。
實(shí)驗(yàn)結(jié)果
多主體、高保真、強(qiáng)可控
![]()
四人場(chǎng)景(4P)
![]()
在四人同框的任務(wù)中,LayerComposer的生成質(zhì)量顯著優(yōu)于 FLUX Kontext、Qwen-Image-Edit、Gemini 2.5 Flash Image等模型,能在存在遮擋的情況下保持人物結(jié)構(gòu)完整,并忠實(shí)地還原每個(gè)人物。
雙人交互(2P)
![]()
在需要兩人互動(dòng)的場(chǎng)景(如「一起吃飯」、「握手」)中,LayerComposer能生成自然的姿態(tài)與空間關(guān)系,不再出現(xiàn)「復(fù)制粘貼」或「少人」的問(wèn)題,用戶偏好達(dá)到83.3%,遠(yuǎn)超OmniGen2等最新模型。
單人個(gè)性化(1P)
![]()
即使只生成單人肖像,LayerComposer仍展示出優(yōu)越的表現(xiàn):
在保持身份一致的同時(shí),能靈活生成不同表情與動(dòng)作(如笑、閉眼、吃飯等),避免「貼臉」效果。
消融實(shí)驗(yàn)
鎖定與分層的作用
![]()
鎖定機(jī)制(Locking Mechanism)
為了展示鎖定機(jī)制的效果,研究人員逐步對(duì)每一層輸入進(jìn)行鎖定。
被鎖定的層會(huì)保留該人物的姿態(tài)——模型只會(huì)在此基礎(chǔ)上進(jìn)行「外延繪制」(outpainting)和輕微的細(xì)節(jié)光照調(diào)整。
需要強(qiáng)調(diào)的是,這與「掩膜推理(masked inference)」不同:在掩膜推理中,被遮擋的區(qū)域完全不會(huì)被更新。
另外,在實(shí)驗(yàn)設(shè)置中,未鎖定的層會(huì)根據(jù)已鎖定的內(nèi)容和整體場(chǎng)景上下文靈活調(diào)整,從而實(shí)現(xiàn)自然的協(xié)調(diào)與融合。
分層畫布(Layered Canvas)
如果不使用分層畫布,模型就只能在訓(xùn)練中以單張拼貼圖像(collage)作為條件輸入,如圖中 「Inputs」 一列所示。
可以看到,在「w/o layered canvas」(無(wú)分層畫布)的結(jié)果中,由于拼貼重疊造成的遮擋,會(huì)導(dǎo)致信息缺失。
例如,左邊女子圣誕帽上的球被遮擋后在生成結(jié)果中完全消失。
相比之下,提出的分層畫布能夠顯式地處理遮擋問(wèn)題,從而避免此類偽影(artifacts)和細(xì)節(jié)丟失。
![]()
通過(guò)在Layered Cavas中調(diào)整每一個(gè)subject在各自layer的位置,LayerComposer支持直觀的空間布局調(diào)控。
總結(jié)
LayerComposer讓多主體個(gè)性化生成從「被動(dòng)輸入」邁向「主動(dòng)創(chuàng)作」。
用戶不再只是輸入文本,而是真正參與到構(gòu)圖過(guò)程中。
從DreamBooth到LayerComposer,個(gè)性化生成,終于有了交互的靈魂。
未來(lái)展望
盡管LayerComposer帶來(lái)了交互式個(gè)性化的新范式,但仍存在一些挑戰(zhàn)。
在需要「復(fù)雜物理推理」(如「坐在輸入圖片椅子上」)的場(chǎng)景中可能失敗。
未來(lái),研究人員計(jì)劃讓LayerComposer支持更強(qiáng)的理解能力和更多模態(tài),以促進(jìn)人機(jī)協(xié)同創(chuàng)作:
結(jié)合大語(yǔ)言與視覺(jué)模型(VLMs)的理解能力,實(shí)現(xiàn)語(yǔ)義級(jí)別的自動(dòng)布局與構(gòu)圖建議;
支持視頻級(jí)別的分層個(gè)性化,讓交互式創(chuàng)作從靜態(tài)圖像走向動(dòng)態(tài)場(chǎng)景;
探索生成與編輯的統(tǒng)一界面,讓用戶在同一畫布上無(wú)縫地修改、添加與再生成內(nèi)容。
這種以「分層畫布」為核心的交互式個(gè)性化范式,將成為下一代生成式創(chuàng)作工具的重要方向。
參考資料:
https://arxiv.org/abs/2510.20820





京公網(wǎng)安備 11011402013531號(hào)