騰訊混元推出全新3D世界模型，憑實(shí)力問鼎 WorldScore排行榜。

IP屬地中國·北京 編輯：柳晴雪字符無限科技 時(shí)間：2025-09-06 20:16:11

騰訊混元世界模型上新，綜合能力問鼎WorldScore排行榜。HunyuanWorld-Voyager（簡稱混元Voyager），發(fā)布即開源。這距離HunyuanWorld 1.0 Lite版發(fā)布僅過兩周。
官方介紹說，這是業(yè)界首個(gè)支持原生3D重建的超長漫游世界模型，能夠生成長距離、世界一致的漫游場景，支持將視頻直接導(dǎo)出為3D格式。
無論是真實(shí)街景：
還是像素游戲：
效果都相當(dāng)不錯(cuò)，不說的話還以為是實(shí)拍或者錄屏。
它和之前的模型相比有什么不同呢？一起來看一下。
一句話，一張圖，一個(gè)場景
仔細(xì)看了看混元Voyager的介紹，這次上新的直觀表現(xiàn)其實(shí)是多了一個(gè)「漫游場景」的功能。
比360°全景圖交互性更強(qiáng)，可以用鼠標(biāo)和鍵盤在場景內(nèi)活動，更好地感受和探索世界。
左邊可以調(diào)整渲染畫質(zhì)和場視角：
錄制gif圖會壓縮畫質(zhì)，實(shí)際體驗(yàn)相當(dāng)清晰。
而且只需要一句話或一張圖就可以生成這樣的場景。
混元官方還給出了prompt指引：
給出的示例效果也相當(dāng)不錯(cuò)，體驗(yàn)感很好，甚至想戴個(gè)VR眼鏡試試。
由于文件大小受限，壓縮了很多次，截個(gè)屏給大家看看原本的畫質(zhì)：
對了，圖生場景對圖片的分辨率是有要求的，太大或者太小都會報(bào)錯(cuò)。
具體要求也給出來了，寫得十分清楚：
除此之外，混元Voyager3D輸入-3D輸出的特性，與此前已開源的混元世界模型1.0高度適配，可進(jìn)一步擴(kuò)展1.0模型的漫游范圍，提升復(fù)雜場景的生成質(zhì)量，并可對生成的場景做風(fēng)格化控制和編輯。
同時(shí)混元Voyager還可支持視頻場景重建、3D物體紋理生成、視頻風(fēng)格定制化生成、視頻深度估計(jì)等多種3D理解與生成應(yīng)用，展現(xiàn)出空間智能的潛力。
將場景深度預(yù)測引入視頻生成過程
混元Voyager為什么能夠做到一鍵生成沉浸式漫游場景呢？這個(gè)問題涉及到它的模型框架。
混元Voyager框架創(chuàng)新性地將場景深度預(yù)測引入視頻生成過程，首次通過空間與特征結(jié)合的方式，支持原生的3D記憶和場景重建，避免了傳統(tǒng)后處理帶來的延遲和精度損失。
同時(shí)，在輸入端加入3D條件保證畫面視角精準(zhǔn)，輸出端直接生成3D點(diǎn)云，適配多種應(yīng)用場景。額外的深度信息還能支持視頻場景重建、3D物體紋理生成、風(fēng)格化編輯和深度估計(jì)等功能。
用比較好理解的話來說，視頻生成+3D建模——基于相機(jī)可控的視頻生成技術(shù)，從初始場景視圖和用戶指定相機(jī)軌跡中，合成可自由控制視角、空間連貫的RGB-D視頻。
混元Voyager包含兩個(gè)關(guān)鍵組件：
（1）世界一致的視頻擴(kuò)散：提出了一種統(tǒng)一的架構(gòu)，能夠基于現(xiàn)有世界觀測，同時(shí)生成精確對齊的RGB視頻與深度視頻序列，并確保全局場景的一致性。
（2）長距離世界探索：提出了一種高效的世界緩存機(jī)制，該機(jī)制融合了點(diǎn)云剔除與自回歸推理能力，可支持迭代式的場景擴(kuò)展，并通過上下文感知的一致性技術(shù)實(shí)現(xiàn)平滑的視頻采樣。
為訓(xùn)練混元Voyager模型，騰訊混元團(tuán)隊(duì)還構(gòu)建了一套可擴(kuò)展的數(shù)據(jù)構(gòu)建引擎——該引擎是一個(gè)自動化視頻重建流水線，能夠?qū)θ我廨斎胍曨l自動估計(jì)相機(jī)位姿以及度量深度，從而無需依賴人工標(biāo)注，即可實(shí)現(xiàn)大規(guī)模、多樣化訓(xùn)練數(shù)據(jù)的構(gòu)建。
基于此流水線，混元Voyager整合了真實(shí)世界采集與虛幻引擎渲染的視頻資源，構(gòu)建了一個(gè)包含超過10萬個(gè)視頻片段的大規(guī)模數(shù)據(jù)集。
將基于1.0模型生成的初始3D點(diǎn)云緩存投影到目標(biāo)相機(jī)視圖，即可為擴(kuò)散模型提供指導(dǎo)。
此外，生成的視頻幀還會實(shí)時(shí)更新緩存，形成閉環(huán)系統(tǒng)，支持任意相機(jī)軌跡，同時(shí)維持幾何一致性。這不僅擴(kuò)展了漫游范圍，還為1.0模型補(bǔ)充新視角內(nèi)容，提升整體生成質(zhì)量。
混元Voyager模型在斯坦福大學(xué)李飛飛團(tuán)隊(duì)發(fā)布的世界模型基準(zhǔn)測試WorldScore上位居綜合能力首位，超越現(xiàn)有開源方法。
這一結(jié)果表明，與基于3D的方法相比，混元Voyager在相機(jī)運(yùn)動控制和空間一致性方面表現(xiàn)出優(yōu)異競爭力。
在視頻生成質(zhì)量上，定性定量結(jié)果表明混元Voyager具備卓越的視頻生成質(zhì)量，能夠生成高度逼真的視頻序列。
特別在定性比較的最后一組樣例中，只有混元Voyager有效保留了輸入圖像中產(chǎn)品的細(xì)節(jié)特征。相比之下，其他方法容易產(chǎn)生明顯偽影。
場景重建方面，在使用VGGT進(jìn)行后處理的情況下，混元Voyager的重建結(jié)果優(yōu)于所有基線模型，表明其生成視頻在幾何一致性方面表現(xiàn)更為出色。
同時(shí)，若進(jìn)一步使用生成的深度信息來初始化點(diǎn)云，重建效果更佳，這也進(jìn)一步證明了所提出深度生成模塊對于場景重建任務(wù)的有效性。
上圖中的定性結(jié)果同樣印證了這一結(jié)論。在最后一組樣例中，混元Voyager 能夠較好地保留吊燈的細(xì)節(jié)特征，而其他方法難以重建出基本形狀。
同時(shí)，在主觀質(zhì)量評價(jià)中，混元Voyager同樣獲得最高評分，進(jìn)一步驗(yàn)證了所生成視頻具備卓越的視覺真實(shí)性。
并且混元Voyager完全開源，相關(guān)技術(shù)報(bào)告已公開，源代碼在GitHub和Hugging Face上免費(fèi)開放。
模型部署的要求如下：
One More Thing
騰訊混元正在不斷加速開源進(jìn)展，除了包括混元Voyager在內(nèi)的混元世界模型系列，還有MoE架構(gòu)的代表性模型混元large、混合推理模型Hunyuan-A13B，以及多個(gè)面向端側(cè)場景的小尺寸模型，最小僅0.5B參數(shù)。
最近還開源了翻譯模型Hunyuan-MT-7B和翻譯集成模型Hunyuan-MT-Chimera-7B（奇美拉），前者在國際機(jī)器翻譯比賽中拿下了30個(gè)第一名。
除騰訊以外的其它國內(nèi)大廠也在猛猛開源。
阿里的Qwen自不用說，除此外，阿里前段時(shí)間還開源了視頻生成模型Wan2.2-S2V。
美團(tuán)的第一個(gè)開源大模型Longcat-Flash-Chat最近也發(fā)布了，不知道大家有沒有關(guān)注。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會在24小時(shí)內(nèi)處理完畢。

同類資訊

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰(zhàn)

一加中國區(qū)總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實(shí)效落地，共筑智能時(shí)代新零售

安卓上線“擴(kuò)展深色主題”設(shè)置，專治堅(jiān)守淺色UI的“不聽話”App

國產(chǎn)GPU四小龍IPO齊活！最后一個(gè)剛剛公布

全站最新

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰(zhàn)

一加中國區(qū)總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實(shí)效落地，共筑智能時(shí)代新零售

熱門推薦

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰(zhàn)

一加中國區(qū)總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實(shí)效落地，共筑智能時(shí)代新零售

安卓上線“擴(kuò)展深色主題”設(shè)置，專治堅(jiān)守淺色UI的“不聽話”App

國產(chǎn)GPU四小龍IPO齊活！最后一個(gè)剛剛公布

蚌埠滕湖機(jī)場完成驗(yàn)證試飛！

中國新礦物團(tuán)隊(duì)再添一員！“金秀礦”正式命名背后有多難？｜封面專訪

羅永浩吐槽后，上海電信：WIFI速率不達(dá)標(biāo)原因很多

李禮輝：必須加快制度創(chuàng)新，確定金融智能體的法律地位

TikTok美國迎“大結(jié)局”：持股19.9%合資方案對TikTok意味著什么？

紫光國微：在商業(yè)航天領(lǐng)域，公司的FPGA等系列產(chǎn)品正陸續(xù)導(dǎo)入

上海電信回應(yīng)“WIFI速率不達(dá)標(biāo)”

TikTok內(nèi)部信“泄密”：被反復(fù)討論的“美國協(xié)議”，到底發(fā)生了什么？

我國科學(xué)家實(shí)現(xiàn)新一代光計(jì)算芯片研究新突破