當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

南洋理工大學(xué)Puffin：統(tǒng)一模型實(shí)現(xiàn)多視角圖像理解與生成

IP屬地中國·北京 科技行者 時(shí)間：2025-11-14 22:11:03

這項(xiàng)由南洋理工大學(xué)S-Lab實(shí)驗(yàn)室的廖康等研究人員領(lǐng)導(dǎo)的突破性研究發(fā)表于2025年1月，論文編號(hào)為arXiv:2510.08673v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。這項(xiàng)研究首次將兩個(gè)看似獨(dú)立的AI能力——理解圖像中的相機(jī)角度和根據(jù)指令生成特定視角圖像——統(tǒng)一到了一個(gè)名為"Puffin"的模型中。
過去，人工智能在處理圖像時(shí)就像兩個(gè)各自為政的專家：一個(gè)擅長分析照片是從什么角度拍攝的，另一個(gè)則專門根據(jù)要求生成特定角度的圖像。這種分離不僅效率低下，還經(jīng)常導(dǎo)致理解和生成之間的不一致。研究團(tuán)隊(duì)意識(shí)到，真正的空間智能需要將這兩種能力融合，就像人類大腦在觀察和創(chuàng)造空間內(nèi)容時(shí)能夠無縫切換一樣。
研究團(tuán)隊(duì)的核心創(chuàng)新在于提出了"用相機(jī)思考"的概念。傳統(tǒng)方法試圖直接從數(shù)字參數(shù)中理解相機(jī)角度，但這些數(shù)字對AI來說過于抽象。研究團(tuán)隊(duì)巧妙地將相機(jī)參數(shù)轉(zhuǎn)換為攝影術(shù)語，比如將傾斜角度稱為"荷蘭角"，將俯視角度稱為"俯拍"。這就像給AI配備了一本攝影詞典，讓它能用人類攝影師的語言來思考和表達(dá)空間關(guān)系。
為了訓(xùn)練這個(gè)統(tǒng)一模型，團(tuán)隊(duì)構(gòu)建了一個(gè)包含400萬張圖像的龐大數(shù)據(jù)集"Puffin-4M"，每張圖像都標(biāo)注了詳細(xì)的相機(jī)參數(shù)、描述文本和空間推理過程。這個(gè)數(shù)據(jù)集涵蓋了室內(nèi)外各種場景和相機(jī)配置，為模型提供了豐富的學(xué)習(xí)素材。
一、突破傳統(tǒng)邊界：將理解與生成完美融合
在人工智能的世界里，理解和創(chuàng)造往往被視為兩個(gè)獨(dú)立的技能。就像學(xué)校里的語文課和美術(shù)課分開上一樣，AI系統(tǒng)通常要么擅長分析圖像內(nèi)容，要么專精于生成圖像，很少有模型能在兩個(gè)領(lǐng)域都表現(xiàn)出色。然而，現(xiàn)實(shí)世界的視覺智能需要這兩種能力的無縫協(xié)作。
Puffin模型的革命性在于它打破了這種人為的界限。研究團(tuán)隊(duì)發(fā)現(xiàn)，相機(jī)理解和圖像生成本質(zhì)上是同一枚硬幣的兩面：一個(gè)是解碼現(xiàn)實(shí)世界的幾何關(guān)系，另一個(gè)是將這些關(guān)系編碼回視覺內(nèi)容。這種洞察促使他們設(shè)計(jì)了一個(gè)統(tǒng)一的架構(gòu)，讓模型既能讀懂照片的空間信息，又能根據(jù)空間要求創(chuàng)造新的視覺內(nèi)容。
模型的核心架構(gòu)巧妙地結(jié)合了大型語言模型和擴(kuò)散生成模型。當(dāng)處理理解任務(wù)時(shí)，幾何對齊的視覺編碼器提取圖像的空間特征，語言模型則負(fù)責(zé)將這些特征轉(zhuǎn)換為人類可理解的描述和精確的相機(jī)參數(shù)。當(dāng)執(zhí)行生成任務(wù)時(shí)，系統(tǒng)流程恰好相反：語言模型接收文本描述和相機(jī)參數(shù)，通過連接器模塊將語義信息傳遞給擴(kuò)散模型，最終生成符合指定視角的圖像。
這種雙向處理能力帶來了意想不到的協(xié)同效應(yīng)。理解任務(wù)中學(xué)到的空間知識(shí)能夠指導(dǎo)生成過程產(chǎn)生更準(zhǔn)確的視角控制，而生成訓(xùn)練中的視覺細(xì)節(jié)處理又反過來增強(qiáng)了理解任務(wù)的幾何感知能力。這就像一個(gè)人既會(huì)讀地圖又會(huì)畫地圖，兩種技能相互促進(jìn)，最終達(dá)到更高的空間認(rèn)知水平。
二、"用相機(jī)思考"：讓AI掌握攝影師的語言
傳統(tǒng)的相機(jī)理解方法就像讓一個(gè)從未接觸過攝影的人直接理解"俯仰角-15度，滾轉(zhuǎn)角30度，視場角75度"這樣的技術(shù)參數(shù)。這些數(shù)字對AI來說同樣晦澀難懂，很難建立與視覺特征之間的直觀聯(lián)系。研究團(tuán)隊(duì)的突破性貢獻(xiàn)在于發(fā)明了"用相機(jī)思考"的方法，將抽象的數(shù)字參數(shù)轉(zhuǎn)換為生動(dòng)的攝影術(shù)語。
這個(gè)轉(zhuǎn)換過程就像給AI配備了一位經(jīng)驗(yàn)豐富的攝影導(dǎo)師。當(dāng)模型看到一張傾斜的照片時(shí)，它不再簡單地輸出"滾轉(zhuǎn)角-20度"，而是首先觀察畫面中的空間線索：地平線的傾斜、建筑物的傾倒感、重力方向的偏移。然后，它會(huì)用攝影師的語言描述這些觀察："這張照片展現(xiàn)了明顯的逆時(shí)針荷蘭角，從傾斜的地平線和建筑物的傾倒可以看出相機(jī)發(fā)生了顯著的左傾旋轉(zhuǎn)。"
這種方法的精妙之處在于它建立了視覺線索、語言描述和數(shù)值參數(shù)之間的三重對應(yīng)關(guān)系。模型學(xué)會(huì)了識(shí)別天空占比大小與俯仰角的關(guān)系，理解了前景背景比例與視場角的聯(lián)系，掌握了各種視覺元素傾斜度與滾轉(zhuǎn)角的對應(yīng)。這種多層次的理解讓模型不僅能輸出準(zhǔn)確的數(shù)值，還能解釋得出這些數(shù)值的原因。
更重要的是，這種思考方式在生成任務(wù)中同樣發(fā)揮關(guān)鍵作用。當(dāng)接收到"生成一張大俯仰角室內(nèi)照片"的指令時(shí)，模型會(huì)首先推理出大俯仰角在室內(nèi)環(huán)境中意味著什么：天花板、吊燈等頂部元素應(yīng)該占據(jù)畫面主要部分，地面元素應(yīng)該被壓縮，整體透視效果應(yīng)該呈現(xiàn)向上的視角。這種語義化的空間推理指導(dǎo)著最終圖像的生成過程。
三、海量數(shù)據(jù)集的精心構(gòu)建：400萬樣本的空間智能訓(xùn)練場
任何強(qiáng)大的AI模型都離不開高質(zhì)量訓(xùn)練數(shù)據(jù)的支撐，而空間智能的訓(xùn)練數(shù)據(jù)構(gòu)建面臨著獨(dú)特的挑戰(zhàn)。市面上現(xiàn)有的數(shù)據(jù)集要么專注于理解任務(wù)，要么針對生成任務(wù)，很少有數(shù)據(jù)集能夠同時(shí)滿足兩種需求。更關(guān)鍵的是，現(xiàn)有數(shù)據(jù)集缺乏詳細(xì)的空間推理過程標(biāo)注，這正是"用相機(jī)思考"方法所必需的核心要素。
研究團(tuán)隊(duì)從零開始構(gòu)建了Puffin-4M數(shù)據(jù)集，這個(gè)命名直接反映了其400萬樣本的龐大規(guī)模。數(shù)據(jù)構(gòu)建過程就像建造一座巨大的虛擬攝影棚，團(tuán)隊(duì)首先收集了約20萬張高質(zhì)量的全景圖像，這些圖像來自公開數(shù)據(jù)集和在線平臺(tái)，甚至包括從Google街景獲取的12個(gè)城市的實(shí)地全景數(shù)據(jù)。許多圖像的分辨率達(dá)到4K甚至10K，為后續(xù)的透視圖像生成提供了豐富的細(xì)節(jié)。
接下來的步驟就像一位虛擬攝影師在每個(gè)全景場景中進(jìn)行無數(shù)次拍攝實(shí)驗(yàn)。對于每張全景圖，系統(tǒng)使用標(biāo)準(zhǔn)相機(jī)模型生成多個(gè)透視視角的圖像，相機(jī)參數(shù)在廣泛的范圍內(nèi)均勻采樣：滾轉(zhuǎn)角和俯仰角各自在-45度到45度之間變化，垂直視場角則從20度覆蓋到105度。這種參數(shù)化的采樣確保了數(shù)據(jù)集涵蓋了從極端傾斜的藝術(shù)角度到常規(guī)的水平視角，從微距特寫到超廣角全景的各種拍攝情況。
數(shù)據(jù)集的核心創(chuàng)新在于每個(gè)樣本都包含三種不同層次的標(biāo)注信息。首先是基礎(chǔ)的場景描述，由先進(jìn)的視覺語言模型生成，后續(xù)經(jīng)過語言模型的精煉優(yōu)化，確保描述既準(zhǔn)確又適合圖像生成任務(wù)。其次是精確的數(shù)值相機(jī)參數(shù)，這些參數(shù)不僅包括傳統(tǒng)的滾轉(zhuǎn)、俯仰和視場角，還包括像素級(jí)的相機(jī)映射，為細(xì)粒度的空間控制提供支撐。
最為獨(dú)特的是空間推理過程的詳細(xì)標(biāo)注。對于每張圖像，系統(tǒng)會(huì)生成一段詳細(xì)的思考過程，描述如何從視覺線索推斷出相機(jī)參數(shù)。這些標(biāo)注就像攝影導(dǎo)師的課堂筆記，詳細(xì)解釋了"為什么天空占據(jù)畫面上半部分說明這是俯視角度"，"為什么建筑物的傾斜表明存在荷蘭角效果"等空間推理邏輯。
為了進(jìn)一步增強(qiáng)模型的實(shí)用性，數(shù)據(jù)集還包含了跨視角的圖像對，支持從一個(gè)視角想象另一個(gè)視角的內(nèi)容。這部分?jǐn)?shù)據(jù)讓模型具備了空間想象能力，能夠回答"如果我向右轉(zhuǎn)會(huì)看到什么"這樣的問題。同時(shí)，團(tuán)隊(duì)還構(gòu)建了攝影美學(xué)評價(jià)的子數(shù)據(jù)集，讓模型學(xué)會(huì)從美學(xué)角度評價(jià)不同相機(jī)角度的效果，為攝影指導(dǎo)應(yīng)用奠定基礎(chǔ)。
四、模型架構(gòu)的巧思：統(tǒng)一框架下的雙重技能
Puffin模型的架構(gòu)設(shè)計(jì)體現(xiàn)了研究團(tuán)隊(duì)對統(tǒng)一框架的深刻理解。整個(gè)系統(tǒng)就像一個(gè)雙語翻譯專家，既能從視覺語言翻譯到空間參數(shù)，也能從空間參數(shù)翻譯到視覺內(nèi)容。這種雙向能力的實(shí)現(xiàn)需要精心設(shè)計(jì)的組件協(xié)作。
在理解任務(wù)中，幾何對齊的視覺編碼器擔(dān)任著關(guān)鍵角色。與傳統(tǒng)的視覺編碼器不同，這個(gè)組件專門針對空間幾何信息進(jìn)行了優(yōu)化。它不僅能提取語義特征，更重要的是能保留幾何保真度。這就像給模型配備了一副專業(yè)的測量眼鏡，能夠精確感知畫面中的線條、角度、透視關(guān)系等幾何信息。
語言模型部分則負(fù)責(zé)將視覺特征轉(zhuǎn)換為人類可理解的描述和精確的參數(shù)預(yù)測。通過漸進(jìn)式解凍和聯(lián)合微調(diào)的訓(xùn)練策略，語言模型學(xué)會(huì)了將低層次的幾何線索與高層次的語言推理聯(lián)系起來。這個(gè)過程分階段進(jìn)行，確保了訓(xùn)練的穩(wěn)定性和空間感知能力的逐步建立。
在生成任務(wù)中，系統(tǒng)的工作流程恰好相反但同樣精妙。連接器模塊充當(dāng)著語言模型和擴(kuò)散模型之間的橋梁，它使用可學(xué)習(xí)的查詢機(jī)制，將語言模型的隱藏表示轉(zhuǎn)換為擴(kuò)散模型能夠理解的條件信號(hào)。這種設(shè)計(jì)允許語義理解和幾何控制的有機(jī)融合。
特別值得注意的是，模型同時(shí)使用離散的相機(jī)標(biāo)記和連續(xù)的相機(jī)映射作為輸入。離散標(biāo)記捕捉全局的相機(jī)設(shè)置，而連續(xù)映射則提供像素級(jí)的幾何上下文。這種雙重表示就像給畫家提供了畫筆的整體運(yùn)動(dòng)軌跡和每個(gè)筆觸的細(xì)節(jié)控制，確保生成的圖像既符合全局的空間設(shè)定，又在局部細(xì)節(jié)上保持幾何一致性。
訓(xùn)練過程采用了四個(gè)階段的策略。第一階段專注于模態(tài)對齊，讓視覺編碼器、語言模型和擴(kuò)散模型學(xué)會(huì)相互理解。第二階段進(jìn)行監(jiān)督微調(diào)，在基礎(chǔ)數(shù)據(jù)上優(yōu)化整個(gè)框架。第三階段引入"用相機(jī)思考"的訓(xùn)練數(shù)據(jù)，教會(huì)模型進(jìn)行空間推理。最后階段通過指令調(diào)優(yōu)，讓模型具備處理各種跨視角任務(wù)的能力。
五、實(shí)驗(yàn)驗(yàn)證：全面超越專業(yè)化模型的表現(xiàn)
任何研究的價(jià)值最終都要通過實(shí)驗(yàn)來驗(yàn)證，Puffin模型的測試結(jié)果讓人印象深刻。研究團(tuán)隊(duì)設(shè)計(jì)了全面的評估體系，不僅與現(xiàn)有的專業(yè)化模型進(jìn)行比較，還構(gòu)建了新的基準(zhǔn)數(shù)據(jù)集來評估統(tǒng)一模型的獨(dú)特能力。
在相機(jī)理解任務(wù)上，Puffin與多個(gè)經(jīng)典方法進(jìn)行了對比，包括傳統(tǒng)的幾何方法如SVA和UVP，以及學(xué)習(xí)方法如DeepCalib、ParamNet和GeoCalib等。測試在三個(gè)公認(rèn)的數(shù)據(jù)集上進(jìn)行：MegaDepth、TartanAir和LaMAR，評估指標(biāo)包括角度誤差的中位數(shù)和不同閾值下的準(zhǔn)確率曲線面積。
結(jié)果顯示，Puffin在大多數(shù)測試中都達(dá)到了最佳或接近最佳的性能。特別是在團(tuán)隊(duì)構(gòu)建的挑戰(zhàn)性數(shù)據(jù)集Puffin-Und上，模型展現(xiàn)出了顯著的優(yōu)勢。這個(gè)數(shù)據(jù)集專門包含了幾何特征稀少和相機(jī)角度極端的困難樣本，正是傳統(tǒng)方法容易失效的場景。Puffin能夠在這些具有挑戰(zhàn)性的條件下保持穩(wěn)定的性能，證明了"用相機(jī)思考"方法的有效性。
在圖像生成任務(wù)上，評估的挑戰(zhàn)在于如何客觀衡量生成圖像的空間準(zhǔn)確性。團(tuán)隊(duì)采用了創(chuàng)新的評估方法：使用最先進(jìn)的相機(jī)理解算法來分析生成圖像的相機(jī)參數(shù)，然后與目標(biāo)參數(shù)進(jìn)行比較。這種方法雖然引入了評估算法本身的誤差，但提供了目前最可靠的定量評估方式。
與GPT-4o、Qwen-Image、Nano Banana等先進(jìn)的多模態(tài)模型相比，Puffin在空間控制準(zhǔn)確性上展現(xiàn)出了壓倒性的優(yōu)勢。這些通用模型雖然能生成高質(zhì)量的圖像，但在精確的空間控制方面存在明顯不足。即使研究團(tuán)隊(duì)嘗試通過轉(zhuǎn)換參數(shù)表示方式（從弧度轉(zhuǎn)為度數(shù)，或使用攝影術(shù)語）來幫助這些模型理解空間要求，效果改善仍然有限。
特別有趣的是對不同相機(jī)參數(shù)控制難度的分析。實(shí)驗(yàn)發(fā)現(xiàn)，現(xiàn)有的圖像生成模型在滾轉(zhuǎn)角控制上表現(xiàn)最差，這與相機(jī)理解任務(wù)中滾轉(zhuǎn)角最容易估算的情況形成了有趣的對比。研究團(tuán)隊(duì)分析認(rèn)為，這種現(xiàn)象反映了訓(xùn)練數(shù)據(jù)的偏差：大多數(shù)攝影作品都傾向于保持水平構(gòu)圖，導(dǎo)致生成模型缺乏傾斜角度的訓(xùn)練樣本，而理解模型則能從幾何線索中輕松識(shí)別傾斜。
六、多元化應(yīng)用展示：從攝影指導(dǎo)到3D重建
Puffin模型的統(tǒng)一架構(gòu)不僅在基礎(chǔ)任務(wù)上表現(xiàn)出色，更在多種實(shí)際應(yīng)用中展現(xiàn)了獨(dú)特的價(jià)值。這些應(yīng)用場景證明了統(tǒng)一空間智能模型相比專業(yè)化模型的顯著優(yōu)勢。
空間想象功能讓模型能夠根據(jù)當(dāng)前視角和目標(biāo)相機(jī)參數(shù)，描述新視角下可能看到的場景。這種能力就像給用戶配備了一個(gè)虛擬的空間向?qū)В軌蚧卮?如果我向左轉(zhuǎn)會(huì)看到什么"這樣的問題。實(shí)驗(yàn)中，模型能夠合理推測室內(nèi)環(huán)境中不同方向可能存在的家具布局，或者戶外場景中其他角度可能觀察到的建筑和景觀。
世界探索應(yīng)用更進(jìn)一步，不僅描述還能實(shí)際生成其他視角的圖像。用戶提供一張初始視角的照片，指定目標(biāo)視角的相機(jī)參數(shù)，模型就能生成相應(yīng)的新視角圖像。為了驗(yàn)證生成結(jié)果的空間一致性，團(tuán)隊(duì)使用了3D重建技術(shù)，將初始視角和生成視角的圖像進(jìn)行三維建模。結(jié)果顯示，生成的圖像與初始圖像能夠成功配準(zhǔn)，形成連貫的3D空間，證明了生成結(jié)果的幾何準(zhǔn)確性。
攝影指導(dǎo)功能展現(xiàn)了模型在美學(xué)評價(jià)方面的能力。系統(tǒng)能夠分析當(dāng)前照片的構(gòu)圖，然后建議相機(jī)參數(shù)的調(diào)整方向以獲得更好的攝影效果。這種建議基于對四個(gè)關(guān)鍵攝影要素的評估：視角創(chuàng)新性、主體強(qiáng)調(diào)、構(gòu)圖平衡和空間和諧。模型學(xué)會(huì)了識(shí)別什么樣的相機(jī)角度能夠更好地突出拍攝主體，什么樣的構(gòu)圖更符合美學(xué)原則。
虛擬3D物體插入應(yīng)用展示了模型在增強(qiáng)現(xiàn)實(shí)領(lǐng)域的潛力。通過準(zhǔn)確估計(jì)照片的相機(jī)參數(shù)，模型能夠?yàn)樘摂M物體的插入提供精確的空間定位信息。這種能力在游戲開發(fā)、建筑可視化、產(chǎn)品展示等領(lǐng)域具有重要價(jià)值。
跨視角任務(wù)的成功實(shí)現(xiàn)證明了統(tǒng)一框架的核心優(yōu)勢：理解和生成能力的相互促進(jìn)。在傳統(tǒng)的分離式方法中，理解模塊和生成模塊各自獨(dú)立訓(xùn)練，難以保證輸出的一致性。而Puffin的統(tǒng)一訓(xùn)練讓兩種能力共享同一套空間表示，確保了理解結(jié)果能夠有效指導(dǎo)生成過程，生成的內(nèi)容也符合理解模塊的預(yù)期。
七、深度分析：統(tǒng)一訓(xùn)練帶來的協(xié)同效應(yīng)
研究團(tuán)隊(duì)通過詳盡的消融實(shí)驗(yàn)揭示了統(tǒng)一訓(xùn)練相比獨(dú)立訓(xùn)練的顯著優(yōu)勢。這些實(shí)驗(yàn)就像精密的外科手術(shù)，逐一分離了模型的各個(gè)組件，分析每個(gè)部分對整體性能的貢獻(xiàn)。
首先，"用相機(jī)思考"機(jī)制的有效性得到了明確驗(yàn)證。對比實(shí)驗(yàn)顯示，加入空間推理過程的模型在相機(jī)理解任務(wù)上的表現(xiàn)明顯優(yōu)于直接回歸方法。這種改善在俯仰角和視場角估計(jì)上尤為明顯，因?yàn)檫@兩個(gè)參數(shù)依賴于更復(fù)雜的上下文理解。模型學(xué)會(huì)了通過觀察天空比例來推斷俯仰角，通過分析畫面包含的內(nèi)容范圍來估計(jì)視場角。
架構(gòu)選擇的重要性也得到了充分證明。直接微調(diào)現(xiàn)有的視覺語言模型（如InternVL或Qwen2.5-VL）的效果遠(yuǎn)不如使用幾何對齊視覺編碼器的版本。這個(gè)發(fā)現(xiàn)強(qiáng)調(diào)了針對特定任務(wù)優(yōu)化組件的必要性，通用模型的視覺編碼器雖然在語義理解上表現(xiàn)出色，但在幾何細(xì)節(jié)保持方面存在不足。
連續(xù)相機(jī)映射的引入帶來了生成任務(wù)上的質(zhì)量躍升。與僅使用離散相機(jī)參數(shù)相比，加入像素級(jí)幾何信息讓生成的圖像在空間一致性上有了顯著改善。特別是在處理復(fù)雜幾何配置（如大角度傾斜）時(shí)，連續(xù)映射提供的細(xì)粒度控制證明是不可替代的。
最令人意外的發(fā)現(xiàn)是理解和生成任務(wù)之間的正向相互作用。單獨(dú)訓(xùn)練理解任務(wù)的模型性能明顯低于聯(lián)合訓(xùn)練的版本。分析表明，生成過程中的擴(kuò)散損失為視覺特征提供了額外的監(jiān)督信號(hào)，這種底層的外觀細(xì)節(jié)優(yōu)化間接增強(qiáng)了幾何感知能力。同樣，理解任務(wù)中學(xué)到的空間先驗(yàn)知識(shí)也為生成過程提供了有價(jià)值的指導(dǎo)，特別是在視場角控制這樣需要全局空間理解的任務(wù)上。
統(tǒng)一訓(xùn)練的另一個(gè)優(yōu)勢體現(xiàn)在數(shù)據(jù)效率上。相比需要分別為理解和生成任務(wù)準(zhǔn)備專門數(shù)據(jù)集的傳統(tǒng)方法，統(tǒng)一框架能夠讓同一份數(shù)據(jù)同時(shí)服務(wù)于兩種任務(wù)，顯著提高了數(shù)據(jù)利用效率。這種設(shè)計(jì)在數(shù)據(jù)獲取成本高昂的專業(yè)領(lǐng)域（如醫(yī)學(xué)影像或科學(xué)可視化）具有特別重要的意義。
八、技術(shù)挑戰(zhàn)與未來展望：邁向完美空間智能的征程
盡管Puffin模型已經(jīng)取得了令人矚目的成果，但研究團(tuán)隊(duì)也誠實(shí)地指出了當(dāng)前方法的局限性和未來的改進(jìn)方向。這種坦誠的態(tài)度體現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)精神，也為后續(xù)研究指明了方向。
當(dāng)前最明顯的限制是單一分辨率的訓(xùn)練數(shù)據(jù)。所有圖像都被統(tǒng)一調(diào)整為512×512像素，這種設(shè)計(jì)簡化了模型架構(gòu)但也限制了應(yīng)用范圍。在處理不同寬高比的圖像時(shí)，系統(tǒng)需要進(jìn)行中心裁剪和縮放，這個(gè)過程可能丟失重要的語義信息，特別是在寬高比偏離正方形較多的情況下。研究團(tuán)隊(duì)建議未來的工作應(yīng)該構(gòu)建多尺度的訓(xùn)練數(shù)據(jù)集，讓模型能夠原生支持各種分辨率和寬高比的圖像。
評估方法的完善是另一個(gè)重要的研究方向。目前對生成圖像空間準(zhǔn)確性的評估依賴于離線的相機(jī)理解算法，這種方法雖然是目前最可行的選擇，但引入了額外的誤差源。特別是對于只有細(xì)微空間差異的生成圖像，現(xiàn)有的評估方法可能無法準(zhǔn)確捕捉質(zhì)量差異。研究團(tuán)隊(duì)建議開發(fā)更強(qiáng)大的相機(jī)理解模型作為評估器，并設(shè)計(jì)更精確捕捉幾何一致性的基準(zhǔn)測試。
模型的跨視角能力還有很大的提升空間。雖然通過指令調(diào)優(yōu)實(shí)現(xiàn)了基礎(chǔ)的跨視角功能，但在復(fù)雜場景和大角度變換下的性能仍需改善。特別是當(dāng)視角變化導(dǎo)致場景內(nèi)容發(fā)生顯著改變時(shí)（如從正面視角轉(zhuǎn)向側(cè)面視角，大量內(nèi)容被遮擋或新內(nèi)容進(jìn)入視野），模型的空間想象能力面臨挑戰(zhàn)。
計(jì)算效率的優(yōu)化是實(shí)際部署中的重要考慮因素。當(dāng)前的統(tǒng)一模型需要同時(shí)維護(hù)語言模型和擴(kuò)散模型兩套參數(shù)，在推理時(shí)的計(jì)算開銷相對較大。研究團(tuán)隊(duì)建議探索更輕量化的架構(gòu)設(shè)計(jì)，如模塊化的專家系統(tǒng)或動(dòng)態(tài)激活的稀疏模型，在保持性能的同時(shí)降低計(jì)算需求。
數(shù)據(jù)集的進(jìn)一步豐富也是重要的發(fā)展方向。雖然Puffin-4M已經(jīng)具有相當(dāng)?shù)囊?guī)模，但在某些特殊場景（如極端光照條件、復(fù)雜幾何結(jié)構(gòu)、動(dòng)態(tài)內(nèi)容）下的樣本仍然有限。特別是真實(shí)世界的畸變效果、鏡頭特性、傳感器噪聲等因素在當(dāng)前的合成數(shù)據(jù)中未能充分體現(xiàn)。
展望未來，研究團(tuán)隊(duì)設(shè)想了多個(gè)激動(dòng)人心的擴(kuò)展方向。相機(jī)中心的視頻理解和生成是一個(gè)自然的延伸，讓模型能夠處理時(shí)序信息，理解和生成具有時(shí)間連貫性的視角變化。多相機(jī)系統(tǒng)的支持將使模型能夠處理立體視覺和多視角重建任務(wù)。與機(jī)器人系統(tǒng)的集成則可能開啟空間智能在物理世界中的實(shí)際應(yīng)用。
更長遠(yuǎn)的愿景是建立真正的通用空間智能系統(tǒng)，不僅局限于靜態(tài)圖像的理解和生成，而是能夠處理任意形式的空間信息，包括點(diǎn)云、網(wǎng)格、體積表示等。這樣的系統(tǒng)將成為增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)、自動(dòng)駕駛、機(jī)器人導(dǎo)航等領(lǐng)域的核心技術(shù)基礎(chǔ)。
說到底，Puffin模型的真正價(jià)值不僅在于其技術(shù)成就，更在于它為我們展示了統(tǒng)一人工智能系統(tǒng)的潛力。通過打破理解與生成之間的人為邊界，研究團(tuán)隊(duì)證明了整體往往大于部分之和的基本原理。這種統(tǒng)一的思路不僅適用于空間智能，也為其他AI領(lǐng)域的發(fā)展提供了有價(jià)值的啟示。
隨著計(jì)算能力的不斷提升和數(shù)據(jù)資源的日益豐富，我們有理由相信，像Puffin這樣的統(tǒng)一模型將成為未來AI系統(tǒng)的主流設(shè)計(jì)范式。它們不再是解決單一問題的專用工具，而是具備多元能力的智能助手，能夠在復(fù)雜的現(xiàn)實(shí)場景中提供全方位的支持。這項(xiàng)研究為我們描繪了一個(gè)充滿可能性的未來，在那里，人工智能真正成為人類探索和創(chuàng)造空間世界的得力伙伴。
Q&A
Q1：Puffin模型是什么？
A：Puffin是由南洋理工大學(xué)開發(fā)的首個(gè)統(tǒng)一相機(jī)中心多模態(tài)AI模型，它能夠同時(shí)理解圖像的相機(jī)拍攝角度和根據(jù)指定角度生成新圖像。與傳統(tǒng)需要兩個(gè)獨(dú)立系統(tǒng)分別處理理解和生成任務(wù)不同，Puffin將這兩種能力融合在一個(gè)模型中，實(shí)現(xiàn)了更高效和一致的空間智能處理。
Q2：什么是"用相機(jī)思考"方法？
A："用相機(jī)思考"是Puffin模型的核心創(chuàng)新，它將抽象的相機(jī)數(shù)字參數(shù)轉(zhuǎn)換為攝影師常用的術(shù)語。比如將傾斜角度稱為"荷蘭角"，將俯視角度稱為"俯拍"。這樣AI就能像攝影師一樣思考空間關(guān)系，通過觀察天空比例、建筑傾斜等視覺線索來推理相機(jī)角度，而不是直接處理難以理解的數(shù)字參數(shù)。
Q3：Puffin模型有哪些實(shí)際應(yīng)用？
A：Puffin有多種實(shí)用功能：空間想象功能能描述從其他角度會(huì)看到什么場景；世界探索功能可以生成其他視角的實(shí)際圖像；攝影指導(dǎo)功能能分析照片構(gòu)圖并建議改進(jìn)的拍攝角度；還能支持虛擬物體插入和3D重建等應(yīng)用。這些功能在游戲開發(fā)、建筑可視化、攝影教學(xué)等領(lǐng)域都有重要價(jià)值。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

觀察|全固態(tài)電池商業(yè)化時(shí)間表成爭議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會(huì)現(xiàn)場，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

千問APP發(fā)布日遭美方“指控”，背后是中美AI的無聲戰(zhàn)爭

明年沖擊100萬臺(tái)！零跑汽車2025年銷量目標(biāo)已達(dá)成

iPhone Air開啟eSIM時(shí)代：國內(nèi)廠商紛紛跟進(jìn)

全站最新

觀察|全固態(tài)電池商業(yè)化時(shí)間表成爭議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會(huì)現(xiàn)場，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

千問APP發(fā)布日遭美方“指控”，背后是中美AI的無聲戰(zhàn)爭

熱門推薦

創(chuàng)新是走出低谷、完成突破的動(dòng)力（親歷者說）

線下線上齊發(fā)力，渝貨出山有實(shí)招

觀察|全固態(tài)電池商業(yè)化時(shí)間表成爭議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

2025世界城市文化大會(huì) 聚焦AI時(shí)代城市文化

在全球最大的科技峰會(huì)現(xiàn)場，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

潤和軟件與中國科學(xué)院廣州生物醫(yī)藥與健康研究院達(dá)成戰(zhàn)略合作

千問APP發(fā)布日遭美方“指控”，背后是中美AI的無聲戰(zhàn)爭

明年沖擊100萬臺(tái)！零跑汽車2025年銷量目標(biāo)已達(dá)成

iPhone Air開啟eSIM時(shí)代：國內(nèi)廠商紛紛跟進(jìn)

劍指蘋果A20 高通驍龍8 Elite Gen6明年見：雙版本齊發(fā)

全球首發(fā)出圈實(shí)況拼圖！OPPO Reno15系列下周登場

全能搭子文心5.0，百度用原生全模態(tài)宣告回歸

中芯國際CEO：存儲(chǔ)漲價(jià)對邏輯代工有兩大致命影響

ADM、浪潮云和神州數(shù)碼成為開源歐拉社區(qū)新捐贈(zèng)單位