12月3日,騰訊混元大模型公布最新進展:正式上線視頻生成能力,與此同時,騰訊開源該視頻生成大模型,參數量130億,是當前最大的視頻開源模型。
“用戶只需要輸入一段描述,即可生成視頻,”騰訊混元相關負責人透露,目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。目前該模型已上線騰訊元寶APP,用戶可在AI應用中的“AI視頻”板塊申請試用。企業客戶通過騰訊云提供服務接入,目前API同步開放內測申請。

比如,在沖浪、跳舞等大幅度運動畫面的生成中,騰訊混元可以生成非常流暢、合理的運動鏡頭,物體不易出現變形;光影反射基本符合物理規律,在鏡面或者照鏡子場景中,可以做到鏡面內外動作一致。同時,模型還可以實現在畫面主角保持不變的情況下自動切鏡頭。
據介紹,混元基于跟Sora類似的DiT架構,并在架構設計上進行多多處升級。混元視頻生成模型適配了新一代文本編碼器提升語義遵循,其具備強大的語義跟隨能力,更好地應對多個主體描繪,實現更加細致的指令和畫面呈現;采用統一的全注意力機制,使得每幀視頻的銜接更為流暢,并能實現主體一致的多視角鏡頭切換;通過先進的圖像視頻混合VAE(3D 變分編碼器),讓模型在細節表現有明顯提升,特別是小人臉、高速鏡頭等場景。
騰訊混元視頻生成模型畫面具備高質感,可用于工業級商業場景例如廣告宣傳、動畫制作、創意視頻生成等場景。
目前,騰訊宣布開源該視頻生成大模型已在 Hugging Face 平臺及 Github 上發布,包含模型權重、推理代碼、模型算法等完整模型,可供企業與個人開發者免費使用和開發生態插件。基于騰訊混元的開源模型,開發者及企業無需從頭訓練,即可直接用于推理,并可基于騰訊混元系列打造專屬應用及服務,能夠節約大量人力及算力,加速行業創新步伐。
從年初以來,騰訊混元系列模型的開源速度不斷加快。此前,騰訊混元已經開源了旗下文生文、文生圖和3D生成大模型。至此,騰訊混元系列大模型已實現全面開源。
文/北京青年報記者 溫婧
編輯/田野





京公網安備 11011402013531號