![]()
智東西
作者 王欣逸
編輯 程茜
智東西12月17日報道,今天,騰訊混元發(fā)布并開源了最新的混元世界模型1.5(Tencent HY WorldPlay),用戶輸入文字指令或者圖片即可創(chuàng)建可交互世界,該模型擁有空間記憶能力,能呈現(xiàn)出前后一致的場景,支持用戶在生成的世界里隨意移動探索。目前,這一模型可在騰訊混元3D官網(wǎng)申請體驗。
![]()
這一模型支持生成第一視角和第三視角場景,能生成多種類型的風格化場景,還支持場景觸發(fā)特定效果,可應用于AI游戲開發(fā)、影視制作和虛擬現(xiàn)實(VR)和具身智能訓練等領域。從官方給出的效果圖來看,僅通過輸入“廢棄游樂園,生銹的摩天輪,雜草叢生,懷舊憂傷”這一指令,該模型便生成了精度很高、內容豐富的游戲風格場景,空間內風格一致,要素齊全。
騰訊混元團隊稱其是業(yè)界最系統(tǒng)、最全面的世界模型框架,涵蓋數(shù)據(jù)、訓練、流式推理部署等全鏈路、全環(huán)節(jié),還提出了重構記憶力、長上下文蒸餾、基于3D的自回歸擴散模型強化學習等算法模塊。
從基準測試的結果來看,混元世界模型1.5在視覺質量和幾何一致性指標上超越所有模型,僅在相機控制準確性的旋轉指標上略落后于Gen3C和ViewCrafter兩個模型。和其他現(xiàn)有模型相比,混元世界模型1.5在實時性、長期一致性和長視野預測等方面存在明顯優(yōu)勢。
![]()
此前,騰訊混元團隊于今年7月發(fā)布了混元3D世界模型1.0,這一模型支持文本或單張圖片輸入生成兼容渲染Pipeline的3D場景;10月,混元發(fā)布了世界模型1.1,它支持多視圖或視頻一鍵創(chuàng)造3D世界。此次更新則是混元世界模型交互能力的關鍵一步。相比于上一個版本,混元世界模型1.5的空間記憶檢索能力進一步升級,此外,新模型還新增了3D場景重建、場景特定觸發(fā)事件等功能,而不僅僅止步于生成沉浸式的3D世界。
在線體驗網(wǎng)站:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay
GitHub:https://github.com/Tencent-Hunyuan/HY-WorldPlay
Hugging Face:https://huggingface.co/tencent/HY-WorldPlay
一、支持文、圖輸入,生成多視角、風格化場景視頻
混元世界模型1.5支持文字輸入指令生成和圖片及文字指令輸入,可以生成第一視角和第三視角場景。用戶可以通過鍵盤、鼠標或手柄操控該世界里的虛擬相機的移動和轉向。
第一視角即為虛擬相機直接呈現(xiàn)出的畫面,隨著鏡頭機位的移動,畫面隨之進行變換。在官方給的案例中,第一視角的場景隨著機位的上下左右旋轉,畫面比較穩(wěn)定,符合人眼的視覺效果。
第三視角則是在虛擬相機前增加了一個人物,用戶通過操控鼠標、鍵盤等移動人物,畫面會隨著人物的移動而改變,值得一提的是,官方給出的案例視頻非常精細,在跟隨人物走動時相機有輕微晃動效果。
混元世界模型1.5支持多種風格化場景,從生成案例來看,其畫面穩(wěn)定性和風格一致性表現(xiàn)不錯。
該模型還支持場景觸發(fā)特定效果,如冒煙、爆炸等。
此外,官方還給出了幾個3D重建的案例,包括狹小空間、室內場景和開放室外空間。從生成結果來看,該模型能基于二維圖像自動補齊信息,重建出的場景比較規(guī)整。

二、多個指標全面碾壓現(xiàn)有模型,幾何一致性和視覺質量出色
研究人員將基線模型分成兩組:一組為無記憶機制的動作控制擴散模型,包括CameraCtrl、SEVA、ViewCrafter、Matrix-Game 2.0、GameCraft;另一組為有記憶機制的模型,包括Gen3C、VMem。
基準測試顯示,從短期生成質量來看,混元世界模型1.5在視覺質量(LPIPS、PSNR、SSIM)上表現(xiàn)出色,全面超越CameraCtrl、SEVA等其他模型,在相機控制準確性的旋轉距離指標Rdist上,混元世界模型1.5比Gen3C和ViewCrafter稍遜色,但仍處于所有模型的領先地位。
在長期場景中,混元世界模型1.5所有指標均超越所有模型,尤其是在控制準確性上,研究人員指出這是由于其他模型誤差累積導致的控制準確性顯著下降,這體現(xiàn)了混元世界模型1.5的較高穩(wěn)定性和一致性特性。
![]()
在VBench定量基準測試中和人工評估結果中,上述結果得到了驗證。
![]()
在長期幾何一致性和視覺質量上,研究人員讓幾個模型一起進行自由探索。混元世界模型1.5在場景泛化方面表現(xiàn)出色,通過重構上下文記憶確保了長期的幾何一致性。Gen3C使用了顯式的3D緩存,對中間輸出的質量高度敏感,深度估計的準確性存在問題,Matrix-Game 2.0和GameCraft由于缺乏專用的記憶機制,無法支持自由探索。
![]()
在WorldPlay的強化學習框架WorldCompass的能力上,研究人員還進行了關于有無WorldCompass RL訓練階段的模型在處理復雜動作時的性能比較,結果顯示,WorldCompass RL框架在提升模型復雜交互能力起著關鍵作用,在無RL訓練時,處理復雜交互信號時模型表現(xiàn)出了視覺退化,而有RL訓練則顯著提高了模型的動作跟隨精度和視覺保真度。
![]()
三、提出全新強化學習框架,能動態(tài)重構上下文
混元世界模型1.5的核心是WorldPlay自回歸擴散模型,它克服前代HY-World 1.0依賴冗長的離線生成、缺乏實時交互的局限,實現(xiàn)了高質量、長序列的流暢視頻生成,速度可達每秒24幀。
該模型提供了一個系統(tǒng)而完整的實時世界模型訓練框架,覆蓋模型預訓練、持續(xù)訓練、自回歸視頻模型強化學習、帶記憶力的模型蒸餾的訓練全流程。
![]()
混元世界模型1.5依賴于一個包含320K視頻片段的綜合訓練數(shù)據(jù)集。這些數(shù)據(jù)來自3A游戲、真實世界的3D場景、合成4D數(shù)據(jù)以及自然動態(tài)視頻。
世界模型長期以來難以兼顧實時生成與系統(tǒng)內存占用,為此,混元世界模型1.5采取了四項核心設計,有效解決了這一矛盾:
1、雙重動作表示法:系統(tǒng)可精準響應用戶的鍵盤與鼠標輸入,實現(xiàn)對生成內容的實時控制。
2、重構上下文記憶機制:通過動態(tài)重建過往幀信息,并結合時間重構策略,系統(tǒng)能夠維持長期的幾何一致性,顯著緩解了長視頻生成中常見的記憶衰減問題。
3、WorldCompost強化學習框架:這一新型后訓練框架專門針對長序列自回歸視頻模型優(yōu)化,直接提升了動作跟隨能力和生成畫面的視覺質量。
4、情境強迫蒸餾法:該方法通過對齊教師模型與學生模型之間的記憶上下文,在確保生成速度的同時,保持了模型利用長遠歷史信息的能力,從而有效抑制誤差累積。
![]()
基于以上技術,在用戶給定一張圖片或一段描述世界的文本提示,該模型能夠根據(jù)用戶輸入的動作條件,執(zhí)行下一片段(16個視頻幀)預測任務,以生成未來的視頻序列。在生成每個片段時,該模型可以動態(tài)地從過往片段中重構上下文記憶,以此確保長期的時序一致性與幾何一致性。
結語:正探索更復雜的交互和物理世界模擬
混元世界模型1.5較此前版本的1.0模型做出了較大提升,突破了此前實時交互和空間細節(jié)的局限,為創(chuàng)建一致且交互式的虛擬世界邁出了關鍵一步。
騰訊混元又開源一世界模型,這為游戲開發(fā)、虛擬現(xiàn)實、數(shù)字內容創(chuàng)作等應用場景提供了新的工具與更多的可能性。混元團隊稱,他們正在探索讓模型能夠生成更長時間的視頻序列,以及支持多智能體交互和復雜的物理世界動態(tài)。





京公網(wǎng)安備 11011402013531號