
作者 | 汪越
編輯 | 漠影
12月3日報道,今天,騰訊混元大模型正式上線視頻生成能力,這是在騰訊文生文、文生圖、3D生成之后的最新技術(shù)進(jìn)展。
據(jù)騰訊混元多模態(tài)生成技術(shù)負(fù)責(zé)人凱撒現(xiàn)場介紹,此次更新中,HunYuan-Video模型經(jīng)歷了四項核心改進(jìn):
1、引入超大規(guī)模數(shù)據(jù)處理系統(tǒng),提升視頻畫質(zhì);
2、采用多模態(tài)大語言模型(MLLM),優(yōu)化文本與圖像的對齊;
3、使用130億參數(shù)的全注意力機制(DIT)和雙模態(tài)ScalingLaw,增強時空建模與動態(tài)表現(xiàn);
4、采用自研3D VAE架構(gòu),提升圖像和視頻的重建能力。
與此同時,騰訊宣布將這款擁有130億參數(shù)規(guī)模的視頻生成模型開源。目前,該模型已在APP與Web端發(fā)布,其標(biāo)準(zhǔn)模式下的視頻生成大約需要120秒完成。

一、騰訊HunYuan-Video模型技術(shù)升級與應(yīng)用拓展
騰訊對HunYuan-Video模型進(jìn)行了四項技術(shù)升級,涵蓋了數(shù)據(jù)處理系統(tǒng)、文本編碼、算力優(yōu)化等多個方面,提升了視頻生成的質(zhì)量與可控性。此外,騰訊還通過微調(diào)、應(yīng)用拓展及開源等措施進(jìn)一步強化了模型的實際應(yīng)用能力。

1、四項關(guān)鍵技術(shù)升級
首先,模型采用了一個超大規(guī)模的數(shù)據(jù)處理系統(tǒng),能夠混合處理圖像與視頻數(shù)據(jù)。該系統(tǒng)包括文字檢測、轉(zhuǎn)景檢測、美學(xué)打分、動作檢測、準(zhǔn)確度檢測等多個維度的功能,進(jìn)一步提升視頻畫質(zhì)。
其次,模型引入了多模態(tài)大語言模型(Decoder-only MLLM)作為文本編碼器,提升了復(fù)雜文本的理解能力,同時支持多語言理解。這一升級使得文本與圖像之間的對齊性得到了加強,能夠根據(jù)用戶提供的提示詞精確生成符合要求的視頻內(nèi)容。

另外,模型架構(gòu)使用了130億參數(shù)的全注意力機制(DIT)和雙模態(tài)ScalingLaw,能夠在視頻生成中有效利用算力和數(shù)據(jù)資源,增強時空建模能力,并優(yōu)化視頻生成過程中的動態(tài)表現(xiàn)。此架構(gòu)支持原生轉(zhuǎn)場,可實現(xiàn)了多個鏡頭間的自然切換,并保持主體一致性。

最后,HunYuan-Video采用了自研的3D VAE架構(gòu),以提升圖像和視頻重建的能力,特別在小人臉和大幅運動場景下表現(xiàn)更加流暢。

2、六大微調(diào)領(lǐng)域強化定向能力
在預(yù)訓(xùn)練之后,騰訊混元大模型目前正在進(jìn)行微調(diào)(SFT)工作,進(jìn)一步增強其視頻生成的定向能力。HunYuan-Video在六個關(guān)鍵方面進(jìn)行了專項微調(diào),包括畫質(zhì)優(yōu)化、高動態(tài)效果、藝術(shù)鏡頭、手寫文本、轉(zhuǎn)場效果以及連續(xù)動作的生成,其中一些調(diào)整仍在進(jìn)行中。
3、Recaption模型與兩種生成模式
此外,HunYuan-Video還推出了Recaption模型,提供了兩種生成模式:常規(guī)模式和導(dǎo)演模式。
常規(guī)模式側(cè)重于簡化用戶輸入的文本,強化自我修正功能,適合專業(yè)用戶進(jìn)行精細(xì)操作;而導(dǎo)演模式則側(cè)重于提升畫面質(zhì)感,強化鏡頭運用、光影設(shè)計和構(gòu)圖美學(xué)等方面的描述,適合非專業(yè)用戶使用。

4、性能評估與同行對比
據(jù)了解,混元大模型經(jīng)過了千題盲測的定量分析,在總體排序中以41.3%的表現(xiàn)領(lǐng)先,優(yōu)于其他模型如CNTOpA(37.7%)、CNTopB(37.5%)和GEN-3(27.4%)。
在特定場景類別中,混元表現(xiàn)尤為突出,特別是在處理人文場景、人工場所以及多主體組合場景時,其生成效果優(yōu)于其他模型。在物品和動物/微生物類目中,混元也具有一定的優(yōu)勢,而在虛擬場景和自然場景的生成效果相對較弱。
從維度來看,混元運動質(zhì)量的合格率排名第一,文本與視頻的對齊合格率位居第二。但從數(shù)據(jù)中可以看出,行業(yè)里的這些模型總體成功率都仍然較低,視頻生成的內(nèi)容仍存在一定的優(yōu)化空間。

5、視頻配音、配樂與數(shù)字人技術(shù)
除了基礎(chǔ)的視頻生成能力外,騰訊還拓展了HunYuan-Video的應(yīng)用功能,推出了視頻配音與配樂功能,能夠為生成的視頻提供音效與背景音樂,進(jìn)一步提升視頻的完整性和表現(xiàn)。
此外,騰訊還推出了驅(qū)動2D照片數(shù)字人的技術(shù),支持通過語音、姿態(tài)和表情等多種驅(qū)動方式控制照片數(shù)字人的動態(tài)表現(xiàn),增強了生成內(nèi)容的自然度、一致性和可控性。

6、開源發(fā)布與生態(tài)支持
目前,騰訊宣布開源該視頻生成大模型已在Hugging Face平臺及Github上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,可供企業(yè)與個人開發(fā)者免費使用和開發(fā)生態(tài)插件。
騰訊混元視頻生成開源項目相關(guān)鏈接如下:
二、騰訊混元的下一步:提高視頻分辨率和生成速度
騰訊混元多模態(tài)生成技術(shù)負(fù)責(zé)人凱撒談道,文生視頻與圖像生成在技術(shù)上有著密切聯(lián)系。雖然視頻生成建立在圖像生成的基礎(chǔ)上,但它對動態(tài)時序信息和場景變化處理能力提出了更高的要求。
視頻生成的一個核心挑戰(zhàn)是在快速變化的場景中維持圖像的連貫性和一致性。雖然圖像生成技術(shù)已經(jīng)取得了顯著的進(jìn)步,但將其擴展至動態(tài)視頻生成仍面臨許多技術(shù)障礙。未來,圖像與視頻生成可能會趨向一體化發(fā)展,但這需要在多個技術(shù)領(lǐng)域取得突破。
此外,視頻主體的一致性問題也是關(guān)鍵所在。當(dāng)前的技術(shù)能夠在較短時間(約5秒)內(nèi)較好地保持一致性,但隨著視頻長度增加,尤其是在鏡頭切換時,保持主體一致性就會變得困難,這在行業(yè)內(nèi)是一個普遍存在的難題。
關(guān)于視頻分辨率,目前大多數(shù)視頻生成技術(shù)能夠達(dá)到720P。騰訊混元計劃逐步提升這一標(biāo)準(zhǔn),首先達(dá)到1080P,最終目標(biāo)是4K乃至8K,以增強視覺體驗中的清晰度與細(xì)節(jié)表現(xiàn)力。
算力的提升對于提高視頻分辨率及加快生成速度至關(guān)重要。騰訊混元正在探索兩條主要路徑:一是通過改進(jìn)算法來直接提升分辨率;二是利用放大算法來提高視頻質(zhì)量。這兩方面的工作都在積極進(jìn)行中。
目前,騰訊混元已經(jīng)開始內(nèi)部測試其視頻生成功能,并計劃逐步推向市場應(yīng)用。然而,要實現(xiàn)大規(guī)模商業(yè)化還需經(jīng)過一定的時間以及市場的驗證。
結(jié)語:AI視頻生成領(lǐng)域競爭加劇
隨著騰訊混元大模型視頻生成能力的發(fā)布,AI視頻生成領(lǐng)域的競爭格局進(jìn)一步加劇。除了騰訊,國外AI視頻生成平臺如Runway、Luma、Pika,以及國內(nèi)的快手可靈、字節(jié)即夢、智譜清影等也在爭奪市場份額,形成了多方競爭的態(tài)勢。
開源已成為騰訊混元大模型的一個戰(zhàn)略選擇。從年初以來,騰訊混元系列模型的開源速度不斷加快。此前,騰訊混元已經(jīng)開源了旗下文生文、文生圖和3D生成大模型。至此,騰訊混元系列大模型已實現(xiàn)全面開源。





京公網(wǎng)安備 11011402013531號