騰訊混元世界模型上新,綜合能力問鼎WorldScore排行榜。HunyuanWorld-Voyager(簡稱混元Voyager),發(fā)布即開源。這距離HunyuanWorld 1.0 Lite版發(fā)布僅過兩周。
官方介紹說,這是業(yè)界首個(gè)支持原生3D重建的超長漫游世界模型,能夠生成長距離、世界一致的漫游場景,支持將視頻直接導(dǎo)出為3D格式。
無論是真實(shí)街景:
還是像素游戲:
效果都相當(dāng)不錯(cuò),不說的話還以為是實(shí)拍或者錄屏。
它和之前的模型相比有什么不同呢?一起來看一下。
一句話,一張圖,一個(gè)場景
仔細(xì)看了看混元Voyager的介紹,這次上新的直觀表現(xiàn)其實(shí)是多了一個(gè)「漫游場景」的功能。
比360°全景圖交互性更強(qiáng),可以用鼠標(biāo)和鍵盤在場景內(nèi)活動,更好地感受和探索世界。
左邊可以調(diào)整渲染畫質(zhì)和場視角:
錄制gif圖會壓縮畫質(zhì),實(shí)際體驗(yàn)相當(dāng)清晰。
而且只需要一句話或一張圖就可以生成這樣的場景。
混元官方還給出了prompt指引:
給出的示例效果也相當(dāng)不錯(cuò),體驗(yàn)感很好,甚至想戴個(gè)VR眼鏡試試。
由于文件大小受限,壓縮了很多次,截個(gè)屏給大家看看原本的畫質(zhì):
對了,圖生場景對圖片的分辨率是有要求的,太大或者太小都會報(bào)錯(cuò)。
具體要求也給出來了,寫得十分清楚:
除此之外,混元Voyager3D輸入-3D輸出的特性,與此前已開源的混元世界模型1.0高度適配,可進(jìn)一步擴(kuò)展1.0模型的漫游范圍,提升復(fù)雜場景的生成質(zhì)量,并可對生成的場景做風(fēng)格化控制和編輯。
同時(shí)混元Voyager還可支持視頻場景重建、3D物體紋理生成、視頻風(fēng)格定制化生成、視頻深度估計(jì)等多種3D理解與生成應(yīng)用,展現(xiàn)出空間智能的潛力。
將場景深度預(yù)測引入視頻生成過程
混元Voyager為什么能夠做到一鍵生成沉浸式漫游場景呢?這個(gè)問題涉及到它的模型框架。
混元Voyager框架創(chuàng)新性地將場景深度預(yù)測引入視頻生成過程,首次通過空間與特征結(jié)合的方式,支持原生的3D記憶和場景重建,避免了傳統(tǒng)后處理帶來的延遲和精度損失。
同時(shí),在輸入端加入3D條件保證畫面視角精準(zhǔn),輸出端直接生成3D點(diǎn)云,適配多種應(yīng)用場景。額外的深度信息還能支持視頻場景重建、3D物體紋理生成、風(fēng)格化編輯和深度估計(jì)等功能。
用比較好理解的話來說,視頻生成+3D建模——基于相機(jī)可控的視頻生成技術(shù),從初始場景視圖和用戶指定相機(jī)軌跡中,合成可自由控制視角、空間連貫的RGB-D視頻。
混元Voyager包含兩個(gè)關(guān)鍵組件:
(1)世界一致的視頻擴(kuò)散:提出了一種統(tǒng)一的架構(gòu),能夠基于現(xiàn)有世界觀測,同時(shí)生成精確對齊的RGB視頻與深度視頻序列,并確保全局場景的一致性。
(2)長距離世界探索:提出了一種高效的世界緩存機(jī)制,該機(jī)制融合了點(diǎn)云剔除與自回歸推理能力,可支持迭代式的場景擴(kuò)展,并通過上下文感知的一致性技術(shù)實(shí)現(xiàn)平滑的視頻采樣。
為訓(xùn)練混元Voyager模型,騰訊混元團(tuán)隊(duì)還構(gòu)建了一套可擴(kuò)展的數(shù)據(jù)構(gòu)建引擎——該引擎是一個(gè)自動化視頻重建流水線,能夠?qū)θ我廨斎胍曨l自動估計(jì)相機(jī)位姿以及度量深度,從而無需依賴人工標(biāo)注,即可實(shí)現(xiàn)大規(guī)模、多樣化訓(xùn)練數(shù)據(jù)的構(gòu)建。
基于此流水線,混元Voyager整合了真實(shí)世界采集與虛幻引擎渲染的視頻資源,構(gòu)建了一個(gè)包含超過10萬個(gè)視頻片段的大規(guī)模數(shù)據(jù)集。
將基于1.0模型生成的初始3D點(diǎn)云緩存投影到目標(biāo)相機(jī)視圖,即可為擴(kuò)散模型提供指導(dǎo)。
此外,生成的視頻幀還會實(shí)時(shí)更新緩存,形成閉環(huán)系統(tǒng),支持任意相機(jī)軌跡,同時(shí)維持幾何一致性。這不僅擴(kuò)展了漫游范圍,還為1.0模型補(bǔ)充新視角內(nèi)容,提升整體生成質(zhì)量。
混元Voyager模型在斯坦福大學(xué)李飛飛團(tuán)隊(duì)發(fā)布的世界模型基準(zhǔn)測試WorldScore上位居綜合能力首位,超越現(xiàn)有開源方法。
這一結(jié)果表明,與基于3D的方法相比,混元Voyager在相機(jī)運(yùn)動控制和空間一致性方面表現(xiàn)出優(yōu)異競爭力。
在視頻生成質(zhì)量上,定性定量結(jié)果表明混元Voyager具備卓越的視頻生成質(zhì)量,能夠生成高度逼真的視頻序列。
特別在定性比較的最后一組樣例中,只有混元Voyager有效保留了輸入圖像中產(chǎn)品的細(xì)節(jié)特征。相比之下,其他方法容易產(chǎn)生明顯偽影。
場景重建方面,在使用VGGT進(jìn)行后處理的情況下,混元Voyager的重建結(jié)果優(yōu)于所有基線模型,表明其生成視頻在幾何一致性方面表現(xiàn)更為出色。
同時(shí),若進(jìn)一步使用生成的深度信息來初始化點(diǎn)云,重建效果更佳,這也進(jìn)一步證明了所提出深度生成模塊對于場景重建任務(wù)的有效性。
上圖中的定性結(jié)果同樣印證了這一結(jié)論。在最后一組樣例中,混元Voyager 能夠較好地保留吊燈的細(xì)節(jié)特征,而其他方法難以重建出基本形狀。
同時(shí),在主觀質(zhì)量評價(jià)中,混元Voyager同樣獲得最高評分,進(jìn)一步驗(yàn)證了所生成視頻具備卓越的視覺真實(shí)性。
并且混元Voyager完全開源,相關(guān)技術(shù)報(bào)告已公開,源代碼在GitHub和Hugging Face上免費(fèi)開放。
模型部署的要求如下:
One More Thing
騰訊混元正在不斷加速開源進(jìn)展,除了包括混元Voyager在內(nèi)的混元世界模型系列,還有MoE架構(gòu)的代表性模型混元large、混合推理模型Hunyuan-A13B,以及多個(gè)面向端側(cè)場景的小尺寸模型,最小僅0.5B參數(shù)。
最近還開源了翻譯模型Hunyuan-MT-7B和翻譯集成模型Hunyuan-MT-Chimera-7B(奇美拉),前者在國際機(jī)器翻譯比賽中拿下了30個(gè)第一名。
除騰訊以外的其它國內(nèi)大廠也在猛猛開源。
阿里的Qwen自不用說,除此外,阿里前段時(shí)間還開源了視頻生成模型Wan2.2-S2V。
美團(tuán)的第一個(gè)開源大模型Longcat-Flash-Chat最近也發(fā)布了,不知道大家有沒有關(guān)注。





京公網(wǎng)安備 11011402013531號