上傳一張圖就能生成短視頻，還能讓人開口唱歌和跳舞……騰訊混元圖生視頻發布并開源

IP屬地中國·北京 編輯：朱天宇揚子晚報 時間：2025-03-06 22:30:26

3月6日，騰訊混元發布圖生視頻模型并對外開源，同時上線對口型與動作驅動等玩法，并支持生成背景音效及2K高質量視頻。
基于圖生視頻的能力，用戶只需上傳一張圖片，并簡短描述希望畫面如何運動、鏡頭如何調度等，混元即可按照用戶要求讓圖片動起來，變成5秒的短視頻，還能自動配上合適的背景音效。此外，上傳一張人物圖片，并輸入希望“對口型”的文字或音頻，圖片中的人物即可“說話”或“唱歌”；如果選擇動作模版，還能一鍵生成同款跳舞視頻。目前用戶通過混元AI視頻官網（https://video.hunyuan.tencent.com/）即可體驗，企業和開發者可在騰訊云申請使用API接口使用。
此次開源的圖生視頻模型，是混元文生視頻模型開源工作的延續，模型總參數量保持 130 億，適用于多種類型的角色和場景，包括寫實視頻制作、動漫角色甚至CGI角色制作的生成。開源內容包含權重、推理代碼和LoRA訓練代碼，支持開發者基于混元訓練專屬LoRA等衍生模型。目前在Github、HuggingFace等主流開發者社區均可下載體驗。
據混元開源技術報告披露，混元視頻生成模型具備靈活的擴展性，圖生視頻和文生視頻在相同的數據集上開展預訓練工作。在保持超寫實畫質、流暢演繹大幅度動作、原生鏡頭切換等特性的基礎上，讓模型能夠捕捉到豐富的視覺和語義信息，并結合圖像、文本、音頻和姿態等多種輸入條件，實現對生成視頻的多維度控制。
混元視頻生成模型開源以來，一直保持較高的熱度，去年12 月登頂huggingface全站趨榜第一，目前Github平臺上Star數超過8.9K。多位開發者自發制作基于社區Hunyuanvideo的插件與衍生模型，積累超過 900 個衍生版本。更早開源的混元DiT文生圖模型，在國內外衍生模型數量多達1600多個。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

鴻蒙正奔騰！解碼中國自主操作系統的生態成熟好用的極限突圍

全站最新

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

熱門推薦

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產了？

王力宏伴舞機器人高難度后空翻后穩穩落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

上饒農商行被罰240萬，上饒銀行被罰170萬

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

雷軍轉發！小米汽車又獲獎再引發輿論安全追問

鴻蒙正奔騰！解碼中國自主操作系統的生態成熟好用的極限突圍

我國成功發射通信技術試驗衛星二十三號

寶馬3系全球產量突破1800萬輛，50年傳奇仍在繼續

降息，突發！集體拉升，近8萬人爆倉！

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術路線圖全面公開！刷新國產GPU推理天花板，新架構能效飆10倍

中科大造出首個紫外光譜成像芯片，成本有望直降99%

將RNA的自毀密碼寫入塑料：科學家實現高分子材料的可編程降解