![]()
這項(xiàng)由南洋理工大學(xué)S-Lab實(shí)驗(yàn)室的廖康等研究人員領(lǐng)導(dǎo)的突破性研究發(fā)表于2025年1月,論文編號(hào)為arXiv:2510.08673v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。這項(xiàng)研究首次將兩個(gè)看似獨(dú)立的AI能力——理解圖像中的相機(jī)角度和根據(jù)指令生成特定視角圖像——統(tǒng)一到了一個(gè)名為"Puffin"的模型中。
過去,人工智能在處理圖像時(shí)就像兩個(gè)各自為政的專家:一個(gè)擅長分析照片是從什么角度拍攝的,另一個(gè)則專門根據(jù)要求生成特定角度的圖像。這種分離不僅效率低下,還經(jīng)常導(dǎo)致理解和生成之間的不一致。研究團(tuán)隊(duì)意識(shí)到,真正的空間智能需要將這兩種能力融合,就像人類大腦在觀察和創(chuàng)造空間內(nèi)容時(shí)能夠無縫切換一樣。
研究團(tuán)隊(duì)的核心創(chuàng)新在于提出了"用相機(jī)思考"的概念。傳統(tǒng)方法試圖直接從數(shù)字參數(shù)中理解相機(jī)角度,但這些數(shù)字對AI來說過于抽象。研究團(tuán)隊(duì)巧妙地將相機(jī)參數(shù)轉(zhuǎn)換為攝影術(shù)語,比如將傾斜角度稱為"荷蘭角",將俯視角度稱為"俯拍"。這就像給AI配備了一本攝影詞典,讓它能用人類攝影師的語言來思考和表達(dá)空間關(guān)系。
為了訓(xùn)練這個(gè)統(tǒng)一模型,團(tuán)隊(duì)構(gòu)建了一個(gè)包含400萬張圖像的龐大數(shù)據(jù)集"Puffin-4M",每張圖像都標(biāo)注了詳細(xì)的相機(jī)參數(shù)、描述文本和空間推理過程。這個(gè)數(shù)據(jù)集涵蓋了室內(nèi)外各種場景和相機(jī)配置,為模型提供了豐富的學(xué)習(xí)素材。
一、突破傳統(tǒng)邊界:將理解與生成完美融合
在人工智能的世界里,理解和創(chuàng)造往往被視為兩個(gè)獨(dú)立的技能。就像學(xué)校里的語文課和美術(shù)課分開上一樣,AI系統(tǒng)通常要么擅長分析圖像內(nèi)容,要么專精于生成圖像,很少有模型能在兩個(gè)領(lǐng)域都表現(xiàn)出色。然而,現(xiàn)實(shí)世界的視覺智能需要這兩種能力的無縫協(xié)作。
Puffin模型的革命性在于它打破了這種人為的界限。研究團(tuán)隊(duì)發(fā)現(xiàn),相機(jī)理解和圖像生成本質(zhì)上是同一枚硬幣的兩面:一個(gè)是解碼現(xiàn)實(shí)世界的幾何關(guān)系,另一個(gè)是將這些關(guān)系編碼回視覺內(nèi)容。這種洞察促使他們設(shè)計(jì)了一個(gè)統(tǒng)一的架構(gòu),讓模型既能讀懂照片的空間信息,又能根據(jù)空間要求創(chuàng)造新的視覺內(nèi)容。
模型的核心架構(gòu)巧妙地結(jié)合了大型語言模型和擴(kuò)散生成模型。當(dāng)處理理解任務(wù)時(shí),幾何對齊的視覺編碼器提取圖像的空間特征,語言模型則負(fù)責(zé)將這些特征轉(zhuǎn)換為人類可理解的描述和精確的相機(jī)參數(shù)。當(dāng)執(zhí)行生成任務(wù)時(shí),系統(tǒng)流程恰好相反:語言模型接收文本描述和相機(jī)參數(shù),通過連接器模塊將語義信息傳遞給擴(kuò)散模型,最終生成符合指定視角的圖像。
這種雙向處理能力帶來了意想不到的協(xié)同效應(yīng)。理解任務(wù)中學(xué)到的空間知識(shí)能夠指導(dǎo)生成過程產(chǎn)生更準(zhǔn)確的視角控制,而生成訓(xùn)練中的視覺細(xì)節(jié)處理又反過來增強(qiáng)了理解任務(wù)的幾何感知能力。這就像一個(gè)人既會(huì)讀地圖又會(huì)畫地圖,兩種技能相互促進(jìn),最終達(dá)到更高的空間認(rèn)知水平。
二、"用相機(jī)思考":讓AI掌握攝影師的語言
傳統(tǒng)的相機(jī)理解方法就像讓一個(gè)從未接觸過攝影的人直接理解"俯仰角-15度,滾轉(zhuǎn)角30度,視場角75度"這樣的技術(shù)參數(shù)。這些數(shù)字對AI來說同樣晦澀難懂,很難建立與視覺特征之間的直觀聯(lián)系。研究團(tuán)隊(duì)的突破性貢獻(xiàn)在于發(fā)明了"用相機(jī)思考"的方法,將抽象的數(shù)字參數(shù)轉(zhuǎn)換為生動(dòng)的攝影術(shù)語。
這個(gè)轉(zhuǎn)換過程就像給AI配備了一位經(jīng)驗(yàn)豐富的攝影導(dǎo)師。當(dāng)模型看到一張傾斜的照片時(shí),它不再簡單地輸出"滾轉(zhuǎn)角-20度",而是首先觀察畫面中的空間線索:地平線的傾斜、建筑物的傾倒感、重力方向的偏移。然后,它會(huì)用攝影師的語言描述這些觀察:"這張照片展現(xiàn)了明顯的逆時(shí)針荷蘭角,從傾斜的地平線和建筑物的傾倒可以看出相機(jī)發(fā)生了顯著的左傾旋轉(zhuǎn)。"
這種方法的精妙之處在于它建立了視覺線索、語言描述和數(shù)值參數(shù)之間的三重對應(yīng)關(guān)系。模型學(xué)會(huì)了識(shí)別天空占比大小與俯仰角的關(guān)系,理解了前景背景比例與視場角的聯(lián)系,掌握了各種視覺元素傾斜度與滾轉(zhuǎn)角的對應(yīng)。這種多層次的理解讓模型不僅能輸出準(zhǔn)確的數(shù)值,還能解釋得出這些數(shù)值的原因。
更重要的是,這種思考方式在生成任務(wù)中同樣發(fā)揮關(guān)鍵作用。當(dāng)接收到"生成一張大俯仰角室內(nèi)照片"的指令時(shí),模型會(huì)首先推理出大俯仰角在室內(nèi)環(huán)境中意味著什么:天花板、吊燈等頂部元素應(yīng)該占據(jù)畫面主要部分,地面元素應(yīng)該被壓縮,整體透視效果應(yīng)該呈現(xiàn)向上的視角。這種語義化的空間推理指導(dǎo)著最終圖像的生成過程。
三、海量數(shù)據(jù)集的精心構(gòu)建:400萬樣本的空間智能訓(xùn)練場
任何強(qiáng)大的AI模型都離不開高質(zhì)量訓(xùn)練數(shù)據(jù)的支撐,而空間智能的訓(xùn)練數(shù)據(jù)構(gòu)建面臨著獨(dú)特的挑戰(zhàn)。市面上現(xiàn)有的數(shù)據(jù)集要么專注于理解任務(wù),要么針對生成任務(wù),很少有數(shù)據(jù)集能夠同時(shí)滿足兩種需求。更關(guān)鍵的是,現(xiàn)有數(shù)據(jù)集缺乏詳細(xì)的空間推理過程標(biāo)注,這正是"用相機(jī)思考"方法所必需的核心要素。
研究團(tuán)隊(duì)從零開始構(gòu)建了Puffin-4M數(shù)據(jù)集,這個(gè)命名直接反映了其400萬樣本的龐大規(guī)模。數(shù)據(jù)構(gòu)建過程就像建造一座巨大的虛擬攝影棚,團(tuán)隊(duì)首先收集了約20萬張高質(zhì)量的全景圖像,這些圖像來自公開數(shù)據(jù)集和在線平臺(tái),甚至包括從Google街景獲取的12個(gè)城市的實(shí)地全景數(shù)據(jù)。許多圖像的分辨率達(dá)到4K甚至10K,為后續(xù)的透視圖像生成提供了豐富的細(xì)節(jié)。
接下來的步驟就像一位虛擬攝影師在每個(gè)全景場景中進(jìn)行無數(shù)次拍攝實(shí)驗(yàn)。對于每張全景圖,系統(tǒng)使用標(biāo)準(zhǔn)相機(jī)模型生成多個(gè)透視視角的圖像,相機(jī)參數(shù)在廣泛的范圍內(nèi)均勻采樣:滾轉(zhuǎn)角和俯仰角各自在-45度到45度之間變化,垂直視場角則從20度覆蓋到105度。這種參數(shù)化的采樣確保了數(shù)據(jù)集涵蓋了從極端傾斜的藝術(shù)角度到常規(guī)的水平視角,從微距特寫到超廣角全景的各種拍攝情況。
數(shù)據(jù)集的核心創(chuàng)新在于每個(gè)樣本都包含三種不同層次的標(biāo)注信息。首先是基礎(chǔ)的場景描述,由先進(jìn)的視覺語言模型生成,后續(xù)經(jīng)過語言模型的精煉優(yōu)化,確保描述既準(zhǔn)確又適合圖像生成任務(wù)。其次是精確的數(shù)值相機(jī)參數(shù),這些參數(shù)不僅包括傳統(tǒng)的滾轉(zhuǎn)、俯仰和視場角,還包括像素級(jí)的相機(jī)映射,為細(xì)粒度的空間控制提供支撐。
最為獨(dú)特的是空間推理過程的詳細(xì)標(biāo)注。對于每張圖像,系統(tǒng)會(huì)生成一段詳細(xì)的思考過程,描述如何從視覺線索推斷出相機(jī)參數(shù)。這些標(biāo)注就像攝影導(dǎo)師的課堂筆記,詳細(xì)解釋了"為什么天空占據(jù)畫面上半部分說明這是俯視角度","為什么建筑物的傾斜表明存在荷蘭角效果"等空間推理邏輯。
為了進(jìn)一步增強(qiáng)模型的實(shí)用性,數(shù)據(jù)集還包含了跨視角的圖像對,支持從一個(gè)視角想象另一個(gè)視角的內(nèi)容。這部分?jǐn)?shù)據(jù)讓模型具備了空間想象能力,能夠回答"如果我向右轉(zhuǎn)會(huì)看到什么"這樣的問題。同時(shí),團(tuán)隊(duì)還構(gòu)建了攝影美學(xué)評價(jià)的子數(shù)據(jù)集,讓模型學(xué)會(huì)從美學(xué)角度評價(jià)不同相機(jī)角度的效果,為攝影指導(dǎo)應(yīng)用奠定基礎(chǔ)。
四、模型架構(gòu)的巧思:統(tǒng)一框架下的雙重技能
Puffin模型的架構(gòu)設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)對統(tǒng)一框架的深刻理解。整個(gè)系統(tǒng)就像一個(gè)雙語翻譯專家,既能從視覺語言翻譯到空間參數(shù),也能從空間參數(shù)翻譯到視覺內(nèi)容。這種雙向能力的實(shí)現(xiàn)需要精心設(shè)計(jì)的組件協(xié)作。
在理解任務(wù)中,幾何對齊的視覺編碼器擔(dān)任著關(guān)鍵角色。與傳統(tǒng)的視覺編碼器不同,這個(gè)組件專門針對空間幾何信息進(jìn)行了優(yōu)化。它不僅能提取語義特征,更重要的是能保留幾何保真度。這就像給模型配備了一副專業(yè)的測量眼鏡,能夠精確感知畫面中的線條、角度、透視關(guān)系等幾何信息。
語言模型部分則負(fù)責(zé)將視覺特征轉(zhuǎn)換為人類可理解的描述和精確的參數(shù)預(yù)測。通過漸進(jìn)式解凍和聯(lián)合微調(diào)的訓(xùn)練策略,語言模型學(xué)會(huì)了將低層次的幾何線索與高層次的語言推理聯(lián)系起來。這個(gè)過程分階段進(jìn)行,確保了訓(xùn)練的穩(wěn)定性和空間感知能力的逐步建立。
在生成任務(wù)中,系統(tǒng)的工作流程恰好相反但同樣精妙。連接器模塊充當(dāng)著語言模型和擴(kuò)散模型之間的橋梁,它使用可學(xué)習(xí)的查詢機(jī)制,將語言模型的隱藏表示轉(zhuǎn)換為擴(kuò)散模型能夠理解的條件信號(hào)。這種設(shè)計(jì)允許語義理解和幾何控制的有機(jī)融合。
特別值得注意的是,模型同時(shí)使用離散的相機(jī)標(biāo)記和連續(xù)的相機(jī)映射作為輸入。離散標(biāo)記捕捉全局的相機(jī)設(shè)置,而連續(xù)映射則提供像素級(jí)的幾何上下文。這種雙重表示就像給畫家提供了畫筆的整體運(yùn)動(dòng)軌跡和每個(gè)筆觸的細(xì)節(jié)控制,確保生成的圖像既符合全局的空間設(shè)定,又在局部細(xì)節(jié)上保持幾何一致性。
訓(xùn)練過程采用了四個(gè)階段的策略。第一階段專注于模態(tài)對齊,讓視覺編碼器、語言模型和擴(kuò)散模型學(xué)會(huì)相互理解。第二階段進(jìn)行監(jiān)督微調(diào),在基礎(chǔ)數(shù)據(jù)上優(yōu)化整個(gè)框架。第三階段引入"用相機(jī)思考"的訓(xùn)練數(shù)據(jù),教會(huì)模型進(jìn)行空間推理。最后階段通過指令調(diào)優(yōu),讓模型具備處理各種跨視角任務(wù)的能力。
五、實(shí)驗(yàn)驗(yàn)證:全面超越專業(yè)化模型的表現(xiàn)
任何研究的價(jià)值最終都要通過實(shí)驗(yàn)來驗(yàn)證,Puffin模型的測試結(jié)果讓人印象深刻。研究團(tuán)隊(duì)設(shè)計(jì)了全面的評估體系,不僅與現(xiàn)有的專業(yè)化模型進(jìn)行比較,還構(gòu)建了新的基準(zhǔn)數(shù)據(jù)集來評估統(tǒng)一模型的獨(dú)特能力。
在相機(jī)理解任務(wù)上,Puffin與多個(gè)經(jīng)典方法進(jìn)行了對比,包括傳統(tǒng)的幾何方法如SVA和UVP,以及學(xué)習(xí)方法如DeepCalib、ParamNet和GeoCalib等。測試在三個(gè)公認(rèn)的數(shù)據(jù)集上進(jìn)行:MegaDepth、TartanAir和LaMAR,評估指標(biāo)包括角度誤差的中位數(shù)和不同閾值下的準(zhǔn)確率曲線面積。
結(jié)果顯示,Puffin在大多數(shù)測試中都達(dá)到了最佳或接近最佳的性能。特別是在團(tuán)隊(duì)構(gòu)建的挑戰(zhàn)性數(shù)據(jù)集Puffin-Und上,模型展現(xiàn)出了顯著的優(yōu)勢。這個(gè)數(shù)據(jù)集專門包含了幾何特征稀少和相機(jī)角度極端的困難樣本,正是傳統(tǒng)方法容易失效的場景。Puffin能夠在這些具有挑戰(zhàn)性的條件下保持穩(wěn)定的性能,證明了"用相機(jī)思考"方法的有效性。
在圖像生成任務(wù)上,評估的挑戰(zhàn)在于如何客觀衡量生成圖像的空間準(zhǔn)確性。團(tuán)隊(duì)采用了創(chuàng)新的評估方法:使用最先進(jìn)的相機(jī)理解算法來分析生成圖像的相機(jī)參數(shù),然后與目標(biāo)參數(shù)進(jìn)行比較。這種方法雖然引入了評估算法本身的誤差,但提供了目前最可靠的定量評估方式。
與GPT-4o、Qwen-Image、Nano Banana等先進(jìn)的多模態(tài)模型相比,Puffin在空間控制準(zhǔn)確性上展現(xiàn)出了壓倒性的優(yōu)勢。這些通用模型雖然能生成高質(zhì)量的圖像,但在精確的空間控制方面存在明顯不足。即使研究團(tuán)隊(duì)嘗試通過轉(zhuǎn)換參數(shù)表示方式(從弧度轉(zhuǎn)為度數(shù),或使用攝影術(shù)語)來幫助這些模型理解空間要求,效果改善仍然有限。
特別有趣的是對不同相機(jī)參數(shù)控制難度的分析。實(shí)驗(yàn)發(fā)現(xiàn),現(xiàn)有的圖像生成模型在滾轉(zhuǎn)角控制上表現(xiàn)最差,這與相機(jī)理解任務(wù)中滾轉(zhuǎn)角最容易估算的情況形成了有趣的對比。研究團(tuán)隊(duì)分析認(rèn)為,這種現(xiàn)象反映了訓(xùn)練數(shù)據(jù)的偏差:大多數(shù)攝影作品都傾向于保持水平構(gòu)圖,導(dǎo)致生成模型缺乏傾斜角度的訓(xùn)練樣本,而理解模型則能從幾何線索中輕松識(shí)別傾斜。
六、多元化應(yīng)用展示:從攝影指導(dǎo)到3D重建
Puffin模型的統(tǒng)一架構(gòu)不僅在基礎(chǔ)任務(wù)上表現(xiàn)出色,更在多種實(shí)際應(yīng)用中展現(xiàn)了獨(dú)特的價(jià)值。這些應(yīng)用場景證明了統(tǒng)一空間智能模型相比專業(yè)化模型的顯著優(yōu)勢。
空間想象功能讓模型能夠根據(jù)當(dāng)前視角和目標(biāo)相機(jī)參數(shù),描述新視角下可能看到的場景。這種能力就像給用戶配備了一個(gè)虛擬的空間向?qū)В軌蚧卮?如果我向左轉(zhuǎn)會(huì)看到什么"這樣的問題。實(shí)驗(yàn)中,模型能夠合理推測室內(nèi)環(huán)境中不同方向可能存在的家具布局,或者戶外場景中其他角度可能觀察到的建筑和景觀。
世界探索應(yīng)用更進(jìn)一步,不僅描述還能實(shí)際生成其他視角的圖像。用戶提供一張初始視角的照片,指定目標(biāo)視角的相機(jī)參數(shù),模型就能生成相應(yīng)的新視角圖像。為了驗(yàn)證生成結(jié)果的空間一致性,團(tuán)隊(duì)使用了3D重建技術(shù),將初始視角和生成視角的圖像進(jìn)行三維建模。結(jié)果顯示,生成的圖像與初始圖像能夠成功配準(zhǔn),形成連貫的3D空間,證明了生成結(jié)果的幾何準(zhǔn)確性。
攝影指導(dǎo)功能展現(xiàn)了模型在美學(xué)評價(jià)方面的能力。系統(tǒng)能夠分析當(dāng)前照片的構(gòu)圖,然后建議相機(jī)參數(shù)的調(diào)整方向以獲得更好的攝影效果。這種建議基于對四個(gè)關(guān)鍵攝影要素的評估:視角創(chuàng)新性、主體強(qiáng)調(diào)、構(gòu)圖平衡和空間和諧。模型學(xué)會(huì)了識(shí)別什么樣的相機(jī)角度能夠更好地突出拍攝主體,什么樣的構(gòu)圖更符合美學(xué)原則。
虛擬3D物體插入應(yīng)用展示了模型在增強(qiáng)現(xiàn)實(shí)領(lǐng)域的潛力。通過準(zhǔn)確估計(jì)照片的相機(jī)參數(shù),模型能夠?yàn)樘摂M物體的插入提供精確的空間定位信息。這種能力在游戲開發(fā)、建筑可視化、產(chǎn)品展示等領(lǐng)域具有重要價(jià)值。
跨視角任務(wù)的成功實(shí)現(xiàn)證明了統(tǒng)一框架的核心優(yōu)勢:理解和生成能力的相互促進(jìn)。在傳統(tǒng)的分離式方法中,理解模塊和生成模塊各自獨(dú)立訓(xùn)練,難以保證輸出的一致性。而Puffin的統(tǒng)一訓(xùn)練讓兩種能力共享同一套空間表示,確保了理解結(jié)果能夠有效指導(dǎo)生成過程,生成的內(nèi)容也符合理解模塊的預(yù)期。
七、深度分析:統(tǒng)一訓(xùn)練帶來的協(xié)同效應(yīng)
研究團(tuán)隊(duì)通過詳盡的消融實(shí)驗(yàn)揭示了統(tǒng)一訓(xùn)練相比獨(dú)立訓(xùn)練的顯著優(yōu)勢。這些實(shí)驗(yàn)就像精密的外科手術(shù),逐一分離了模型的各個(gè)組件,分析每個(gè)部分對整體性能的貢獻(xiàn)。
首先,"用相機(jī)思考"機(jī)制的有效性得到了明確驗(yàn)證。對比實(shí)驗(yàn)顯示,加入空間推理過程的模型在相機(jī)理解任務(wù)上的表現(xiàn)明顯優(yōu)于直接回歸方法。這種改善在俯仰角和視場角估計(jì)上尤為明顯,因?yàn)檫@兩個(gè)參數(shù)依賴于更復(fù)雜的上下文理解。模型學(xué)會(huì)了通過觀察天空比例來推斷俯仰角,通過分析畫面包含的內(nèi)容范圍來估計(jì)視場角。
架構(gòu)選擇的重要性也得到了充分證明。直接微調(diào)現(xiàn)有的視覺語言模型(如InternVL或Qwen2.5-VL)的效果遠(yuǎn)不如使用幾何對齊視覺編碼器的版本。這個(gè)發(fā)現(xiàn)強(qiáng)調(diào)了針對特定任務(wù)優(yōu)化組件的必要性,通用模型的視覺編碼器雖然在語義理解上表現(xiàn)出色,但在幾何細(xì)節(jié)保持方面存在不足。
連續(xù)相機(jī)映射的引入帶來了生成任務(wù)上的質(zhì)量躍升。與僅使用離散相機(jī)參數(shù)相比,加入像素級(jí)幾何信息讓生成的圖像在空間一致性上有了顯著改善。特別是在處理復(fù)雜幾何配置(如大角度傾斜)時(shí),連續(xù)映射提供的細(xì)粒度控制證明是不可替代的。
最令人意外的發(fā)現(xiàn)是理解和生成任務(wù)之間的正向相互作用。單獨(dú)訓(xùn)練理解任務(wù)的模型性能明顯低于聯(lián)合訓(xùn)練的版本。分析表明,生成過程中的擴(kuò)散損失為視覺特征提供了額外的監(jiān)督信號(hào),這種底層的外觀細(xì)節(jié)優(yōu)化間接增強(qiáng)了幾何感知能力。同樣,理解任務(wù)中學(xué)到的空間先驗(yàn)知識(shí)也為生成過程提供了有價(jià)值的指導(dǎo),特別是在視場角控制這樣需要全局空間理解的任務(wù)上。
統(tǒng)一訓(xùn)練的另一個(gè)優(yōu)勢體現(xiàn)在數(shù)據(jù)效率上。相比需要分別為理解和生成任務(wù)準(zhǔn)備專門數(shù)據(jù)集的傳統(tǒng)方法,統(tǒng)一框架能夠讓同一份數(shù)據(jù)同時(shí)服務(wù)于兩種任務(wù),顯著提高了數(shù)據(jù)利用效率。這種設(shè)計(jì)在數(shù)據(jù)獲取成本高昂的專業(yè)領(lǐng)域(如醫(yī)學(xué)影像或科學(xué)可視化)具有特別重要的意義。
八、技術(shù)挑戰(zhàn)與未來展望:邁向完美空間智能的征程
盡管Puffin模型已經(jīng)取得了令人矚目的成果,但研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前方法的局限性和未來的改進(jìn)方向。這種坦誠的態(tài)度體現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)精神,也為后續(xù)研究指明了方向。
當(dāng)前最明顯的限制是單一分辨率的訓(xùn)練數(shù)據(jù)。所有圖像都被統(tǒng)一調(diào)整為512×512像素,這種設(shè)計(jì)簡化了模型架構(gòu)但也限制了應(yīng)用范圍。在處理不同寬高比的圖像時(shí),系統(tǒng)需要進(jìn)行中心裁剪和縮放,這個(gè)過程可能丟失重要的語義信息,特別是在寬高比偏離正方形較多的情況下。研究團(tuán)隊(duì)建議未來的工作應(yīng)該構(gòu)建多尺度的訓(xùn)練數(shù)據(jù)集,讓模型能夠原生支持各種分辨率和寬高比的圖像。
評估方法的完善是另一個(gè)重要的研究方向。目前對生成圖像空間準(zhǔn)確性的評估依賴于離線的相機(jī)理解算法,這種方法雖然是目前最可行的選擇,但引入了額外的誤差源。特別是對于只有細(xì)微空間差異的生成圖像,現(xiàn)有的評估方法可能無法準(zhǔn)確捕捉質(zhì)量差異。研究團(tuán)隊(duì)建議開發(fā)更強(qiáng)大的相機(jī)理解模型作為評估器,并設(shè)計(jì)更精確捕捉幾何一致性的基準(zhǔn)測試。
模型的跨視角能力還有很大的提升空間。雖然通過指令調(diào)優(yōu)實(shí)現(xiàn)了基礎(chǔ)的跨視角功能,但在復(fù)雜場景和大角度變換下的性能仍需改善。特別是當(dāng)視角變化導(dǎo)致場景內(nèi)容發(fā)生顯著改變時(shí)(如從正面視角轉(zhuǎn)向側(cè)面視角,大量內(nèi)容被遮擋或新內(nèi)容進(jìn)入視野),模型的空間想象能力面臨挑戰(zhàn)。
計(jì)算效率的優(yōu)化是實(shí)際部署中的重要考慮因素。當(dāng)前的統(tǒng)一模型需要同時(shí)維護(hù)語言模型和擴(kuò)散模型兩套參數(shù),在推理時(shí)的計(jì)算開銷相對較大。研究團(tuán)隊(duì)建議探索更輕量化的架構(gòu)設(shè)計(jì),如模塊化的專家系統(tǒng)或動(dòng)態(tài)激活的稀疏模型,在保持性能的同時(shí)降低計(jì)算需求。
數(shù)據(jù)集的進(jìn)一步豐富也是重要的發(fā)展方向。雖然Puffin-4M已經(jīng)具有相當(dāng)?shù)囊?guī)模,但在某些特殊場景(如極端光照條件、復(fù)雜幾何結(jié)構(gòu)、動(dòng)態(tài)內(nèi)容)下的樣本仍然有限。特別是真實(shí)世界的畸變效果、鏡頭特性、傳感器噪聲等因素在當(dāng)前的合成數(shù)據(jù)中未能充分體現(xiàn)。
展望未來,研究團(tuán)隊(duì)設(shè)想了多個(gè)激動(dòng)人心的擴(kuò)展方向。相機(jī)中心的視頻理解和生成是一個(gè)自然的延伸,讓模型能夠處理時(shí)序信息,理解和生成具有時(shí)間連貫性的視角變化。多相機(jī)系統(tǒng)的支持將使模型能夠處理立體視覺和多視角重建任務(wù)。與機(jī)器人系統(tǒng)的集成則可能開啟空間智能在物理世界中的實(shí)際應(yīng)用。
更長遠(yuǎn)的愿景是建立真正的通用空間智能系統(tǒng),不僅局限于靜態(tài)圖像的理解和生成,而是能夠處理任意形式的空間信息,包括點(diǎn)云、網(wǎng)格、體積表示等。這樣的系統(tǒng)將成為增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)、自動(dòng)駕駛、機(jī)器人導(dǎo)航等領(lǐng)域的核心技術(shù)基礎(chǔ)。
說到底,Puffin模型的真正價(jià)值不僅在于其技術(shù)成就,更在于它為我們展示了統(tǒng)一人工智能系統(tǒng)的潛力。通過打破理解與生成之間的人為邊界,研究團(tuán)隊(duì)證明了整體往往大于部分之和的基本原理。這種統(tǒng)一的思路不僅適用于空間智能,也為其他AI領(lǐng)域的發(fā)展提供了有價(jià)值的啟示。
隨著計(jì)算能力的不斷提升和數(shù)據(jù)資源的日益豐富,我們有理由相信,像Puffin這樣的統(tǒng)一模型將成為未來AI系統(tǒng)的主流設(shè)計(jì)范式。它們不再是解決單一問題的專用工具,而是具備多元能力的智能助手,能夠在復(fù)雜的現(xiàn)實(shí)場景中提供全方位的支持。這項(xiàng)研究為我們描繪了一個(gè)充滿可能性的未來,在那里,人工智能真正成為人類探索和創(chuàng)造空間世界的得力伙伴。
Q&A
Q1:Puffin模型是什么?
A:Puffin是由南洋理工大學(xué)開發(fā)的首個(gè)統(tǒng)一相機(jī)中心多模態(tài)AI模型,它能夠同時(shí)理解圖像的相機(jī)拍攝角度和根據(jù)指定角度生成新圖像。與傳統(tǒng)需要兩個(gè)獨(dú)立系統(tǒng)分別處理理解和生成任務(wù)不同,Puffin將這兩種能力融合在一個(gè)模型中,實(shí)現(xiàn)了更高效和一致的空間智能處理。
Q2:什么是"用相機(jī)思考"方法?
A:"用相機(jī)思考"是Puffin模型的核心創(chuàng)新,它將抽象的相機(jī)數(shù)字參數(shù)轉(zhuǎn)換為攝影師常用的術(shù)語。比如將傾斜角度稱為"荷蘭角",將俯視角度稱為"俯拍"。這樣AI就能像攝影師一樣思考空間關(guān)系,通過觀察天空比例、建筑傾斜等視覺線索來推理相機(jī)角度,而不是直接處理難以理解的數(shù)字參數(shù)。
Q3:Puffin模型有哪些實(shí)際應(yīng)用?
A:Puffin有多種實(shí)用功能:空間想象功能能描述從其他角度會(huì)看到什么場景;世界探索功能可以生成其他視角的實(shí)際圖像;攝影指導(dǎo)功能能分析照片構(gòu)圖并建議改進(jìn)的拍攝角度;還能支持虛擬物體插入和3D重建等應(yīng)用。這些功能在游戲開發(fā)、建筑可視化、攝影教學(xué)等領(lǐng)域都有重要價(jià)值。





京公網(wǎng)安備 11011402013531號(hào)