12月3日,騰訊公司宣布,其混元大模型成功上線視頻生成能力,標(biāo)志著繼文生文、文生圖、3D生成之后,騰訊在AI領(lǐng)域再次實(shí)現(xiàn)重大技術(shù)突破。該模型的參數(shù)量高達(dá)130億,成為當(dāng)前最大的視頻開源模型。

混元大模型支持中英文雙語輸入,并具備“超寫實(shí)”的視頻生成能力,畫面質(zhì)量高,不易變形。在鏡面或鏡子場景中,模型能實(shí)現(xiàn)鏡面反射動(dòng)作與外部場景的完全同步,光影反射效果符合物理規(guī)律。
據(jù)悉,混元大模型采用了DiT架構(gòu),并結(jié)合新一代文本編碼器,有效提升了語義遵循能力。這使得模型在描繪多個(gè)主體時(shí)更加精準(zhǔn),能夠?qū)崿F(xiàn)更細(xì)致的指令和畫面呈現(xiàn)。
感興趣的用戶可在騰訊元寶App中的“AI應(yīng)用”板塊選擇“AI視頻”申請?jiān)囉谩M瑫r(shí),企業(yè)客戶可通過騰訊云提供服務(wù)接入,目前API已同步開放內(nèi)測申請,此次開源行動(dòng)涵蓋了模型權(quán)重、推理代碼、模型算法等完整模型,免費(fèi)提供給企業(yè)和個(gè)人開發(fā)者使用。





京公網(wǎng)安備 11011402013531號