IT之家 12 月 18 日消息,科技媒體 9to5Mac 昨日(12 月 17 日)發(fā)布博文,報(bào)道稱(chēng)蘋(píng)果公司開(kāi)源名為 SHARP 的新型 AI 模型,該技術(shù)能在一秒內(nèi)將單張 2D 照片轉(zhuǎn)換為逼真的 3D 場(chǎng)景。
IT之家援引博文介紹,蘋(píng)果發(fā)布名為《一秒內(nèi)實(shí)現(xiàn)清晰的單目視圖合成》(Sharp Monocular View Synthesis in Less Than a Second)論文,詳細(xì)介紹了如何訓(xùn)練模型,在接收用戶輸入的一張普通 2D 照片后,能在一秒鐘內(nèi)重建出具有真實(shí)物理比例的 3D 場(chǎng)景。
![]()
與需要數(shù)分鐘甚至數(shù)小時(shí)處理的傳統(tǒng)方案相比,SHARP 將合成速度提升了三個(gè)數(shù)量級(jí),實(shí)現(xiàn)了近乎實(shí)時(shí)的 3D 轉(zhuǎn)換體驗(yàn)。
在技術(shù)原理上,SHARP 采用了先進(jìn)的 3D 高斯?jié)姙R技術(shù)(3D Gaussian Splatting)。簡(jiǎn)單來(lái)說(shuō),它將 3D 場(chǎng)景視為無(wú)數(shù)個(gè)帶有顏色和光影信息的“模糊光團(tuán)”(高斯球)。
![]()
傳統(tǒng)的 3D 重建通常需要對(duì)同一場(chǎng)景拍攝數(shù)十甚至上百?gòu)埐煌嵌鹊恼掌偻ㄟ^(guò)復(fù)雜的計(jì)算來(lái)確定這些光團(tuán)的位置。然而,蘋(píng)果通過(guò)使用海量的合成數(shù)據(jù)與真實(shí)世界數(shù)據(jù)訓(xùn)練 SHARP,讓其掌握了通用的深度與幾何規(guī)律。
因此,當(dāng)面對(duì)一張全新照片時(shí),SHARP 能通過(guò)神經(jīng)網(wǎng)絡(luò)的單次前饋傳遞,直接預(yù)測(cè)出數(shù)百萬(wàn)個(gè) 3D 高斯球的位置與外觀,瞬間完成建模。
除了速度驚人,SHARP 在成像質(zhì)量上也樹(shù)立了新標(biāo)桿。根據(jù)蘋(píng)果公布的論文數(shù)據(jù),該模型在多個(gè)基準(zhǔn)測(cè)試數(shù)據(jù)集上均取得了優(yōu)異成績(jī)。
![]()
與此前業(yè)內(nèi)最強(qiáng)的模型相比,SHARP 將 LPIPS(一種感知圖像塊相似度度量標(biāo)準(zhǔn))降低了 25 個(gè)百分點(diǎn)至 34%,同時(shí)將 DISTS(紋理相似度指標(biāo))降低了 21 個(gè)百分點(diǎn)至 43%。這意味著,由 SHARP 生成的 3D 視圖在細(xì)節(jié)紋理和整體結(jié)構(gòu)上都更接近真實(shí)世界,且具備絕對(duì)尺度,支持真實(shí)的相機(jī)移動(dòng)模擬。
不過(guò),SHARP 目前仍存在一定的物理限制。為了保證生成的真實(shí)性與速度,該模型主要側(cè)重于重建拍攝視角附近的 3D 視圖,而不會(huì)憑空“腦補(bǔ)”照片中完全被遮擋或未拍攝到的盲區(qū)。
因此,用戶在瀏覽生成的 3D 場(chǎng)景時(shí),視角移動(dòng)范圍需保持在原圖拍攝位置的鄰近區(qū)域。蘋(píng)果目前已將 SHARP 的完整代碼及相關(guān)資源發(fā)布在 GitHub 平臺(tái),全球開(kāi)發(fā)者均可下載測(cè)試,這一舉措預(yù)計(jì)將大幅加速移動(dòng)端 3D 內(nèi)容創(chuàng)作與空間計(jì)算應(yīng)用的發(fā)展。
IT之家附上網(wǎng)友利用該模型,生成的 3D 場(chǎng)景如下:
![]()
![]()
![]()
![]()





京公網(wǎng)安備 11011402013531號(hào)