近日,蘋果聯(lián)合南京大學(xué)與香港科技大學(xué),共同開發(fā)了一款名為Matrix3D的AI模型。該模型的核心優(yōu)勢在于其高效的3D重建能力,與傳統(tǒng)方法不同,用戶只需提供三張照片,Matrix3D就能快速生成包含物體和環(huán)境的詳細(xì)3D模型。

Matrix3D在技術(shù)層面實現(xiàn)了顯著突破。傳統(tǒng)攝影測量技術(shù)通常依賴多個獨立模型分別進(jìn)行姿態(tài)估計、深度預(yù)測等步驟,這種分段式方法容易導(dǎo)致效率低下和誤差積累。而Matrix3D采用了一種創(chuàng)新的統(tǒng)一架構(gòu),將圖像、相機參數(shù)(如角度和焦距)以及深度數(shù)據(jù)等多種信息整合到一起進(jìn)行處理。這種設(shè)計減少了中間環(huán)節(jié),使得重建過程更加流暢、可靠,并顯著降低了人為錯誤的風(fēng)險。
在訓(xùn)練策略上,Matrix3D借鑒了早期Transformer模型的成功經(jīng)驗,采用了掩碼學(xué)習(xí)方法。這種方法類似于ChatGPT早期版本的訓(xùn)練理念,通過在訓(xùn)練過程中隨機隱藏部分輸入數(shù)據(jù),迫使模型學(xué)會“填充空白”。這種訓(xùn)練方式強化了模型的適應(yīng)性和泛化能力,使其即使面對數(shù)據(jù)集較小或不完整的情況,也能有效學(xué)習(xí)關(guān)鍵特征,完成高質(zhì)量的3D重建。





京公網(wǎng)安備 11011402013531號