狼叫獸

通義萬相2.1版模型升級:視頻生成、圖像生成能力顯著提升
近日,阿里旗下通義萬相宣布推出2.1版本的模型升級。此次升級主要針對視頻和圖像生成兩大功能進行了改進和優(yōu)化。
在視頻生成方面,通義萬相2.1引入了自研的高效VAE和DiT架構,增強了時空上下文建模能力,并實現(xiàn)了中文文字視頻生成功能。該功能在VBench榜單中名列第一。
此外,通義萬相2.1還支持中英文視頻一鍵生成藝術字,并提供多種視覺效果選項,如過渡、粒子效果、模擬等。用戶可以根據自己的需求選擇合適的特效來增強視頻的表現(xiàn)力。
同時,在圖片生成方面,通義萬相2.1采用了IC-LoRA圖像生成訓練方法,并利用DiT架構來增強文本到圖像的上下文能力。通過多張圖像的拼接與聯(lián)合描述,可以實現(xiàn)關聯(lián)圖像間的組合生成,并保持特征穩(wěn)定連續(xù)。
總之,通義萬相2.1版模型升級在視頻和圖像生成領域取得了顯著進展,為用戶提供了更加優(yōu)質、多樣化的服務。期待通義萬相在未來能夠帶來更多令人驚喜的創(chuàng)新。





京公網安備 11011402013531號