![]()
今年以來(lái),開(kāi)源項(xiàng)目LightX2V 及其 4 步視頻生成蒸餾模型在 ComfyUI 社區(qū)迅速走紅,單月下載量超過(guò) 170 萬(wàn)次。越來(lái)越多創(chuàng)作者用它在消費(fèi)級(jí)顯卡上完成高質(zhì)量視頻生成,把“等幾分鐘出一段視頻”變成“邊看邊出片”。
LightX2V 背后并不是單一模型的優(yōu)化,而是一整套面向低成本、強(qiáng)實(shí)時(shí)視頻生成的推理技術(shù)棧:從步數(shù)蒸餾與輕量VAE,到低比特算子、稀疏算子、多卡并行與分級(jí)Offloading,目標(biāo)只有一個(gè)——在主流硬件上,把視頻生成推到 1:1 實(shí)時(shí)。
![]()
GitHub:https://github.com/ModelTC/LightX2VHugging Face:https://huggingface.co/lightx2v項(xiàng)目主頁(yè):https://light-ai.top
1:1 實(shí)時(shí),遠(yuǎn)超現(xiàn)有框架
![]()
在很多視頻生成框架中,生成 5–10 秒視頻依然需要幾分鐘時(shí)間。LightX2V 在相同分辨率和硬件條件下,通過(guò)極少步數(shù)的推理和系統(tǒng)級(jí)優(yōu)化,將生成時(shí)間壓縮到與視頻時(shí)長(zhǎng)接近的水平 (如上圖端到端耗時(shí)所示),實(shí)現(xiàn)接近 1:1 的實(shí)時(shí)體驗(yàn)。
在同類開(kāi)源方案中,LightX2V 相比 SGLang Diffusion, FastVideo 等優(yōu)秀的開(kāi)源框架在延遲和吞吐上都具有明顯優(yōu)勢(shì) (如下圖單步耗時(shí)對(duì)比所示),尤其是在 8GB–24GB 消費(fèi)級(jí)顯卡區(qū)間,更容易跑滿硬件能力。
![]()
![]()
雙核心算法:Phased DMD 步數(shù)蒸餾 + LightVAE
LightX2V 的速度并不是簡(jiǎn)單 “少采樣幾步” 得到的,而是通過(guò)兩項(xiàng)關(guān)鍵算法協(xié)同設(shè)計(jì):
Phased DMD 步數(shù)蒸餾
LightX2V 自研的 Phased DMD 步數(shù)蒸餾,把原本 40–50 步的視頻擴(kuò)散過(guò)程壓縮到 4 步,同時(shí)保持時(shí)間一致性和運(yùn)動(dòng)細(xì)節(jié)。基于這一技術(shù)產(chǎn)出的少步模型(如 Wan2.1 / Qwen-Image 等)已經(jīng)在 Hugging Face 趨勢(shì)榜中長(zhǎng)期靠前,累積下載量達(dá)到百萬(wàn)級(jí)。
LightVAE 輕量級(jí) VAE
針對(duì)視頻生成場(chǎng)景對(duì)吞吐和分辨率的雙重需求,LightX2V 設(shè)計(jì)了極致輕量的 LightVAE。與常規(guī) VAE 相比,在保持高清畫質(zhì)和時(shí)間一致性的前提下,有效降低了編解碼開(kāi)銷,為 4 步推理釋放出更多預(yù)算。
這兩部分相當(dāng)于在 “算法上先把路打通”,再讓后續(xù)工程優(yōu)化盡可能榨干硬件性能。
全棧性能工程:從 8GB 顯存到多卡強(qiáng)實(shí)時(shí)
在算法壓縮完成后,LightX2V 通過(guò)一套全棧推理框架,把 “能跑” 變成 “跑得快、跑得省”:
顯存門檻:通過(guò)步數(shù)蒸餾、低比特量化和分級(jí) Offloading,將完整視頻生成工作流的顯存需求壓到 8GB 以下,入門級(jí)消費(fèi)卡即可運(yùn)行。吞吐與延遲:綜合使用低比特算子、稀疏注意力與特征緩存,在常見(jiàn) 5 秒視頻場(chǎng)景下達(dá)到接近 1:1 的實(shí)時(shí)生成速度。
關(guān)鍵技術(shù)模塊包括:
低比特算子(MXFP8 / MXFP6 / NVFP4):在不明顯損傷畫質(zhì)的前提下壓縮計(jì)算與帶寬,釋放硬件算力。稀疏注意力算子:利用視頻時(shí)空特征的稀疏性,減少冗余計(jì)算,提升大分辨率下的吞吐。特征緩存:對(duì)中間特征進(jìn)行緩存與復(fù)用,降低重復(fù)計(jì)算,進(jìn)一步縮短延遲。三層延遲隱藏 Offloading:通過(guò)精細(xì)化的顯存–內(nèi)存調(diào)度,在 8GB 顯存上完成 28B 級(jí)別 MoE 模型推理,兼顧成本與能力。FP8 通信多卡并行:結(jié)合 FP8 通信和流水線 / 序列并行,在多卡環(huán)境下進(jìn)一步提升吞吐,面向 5090 等消費(fèi)級(jí)新卡實(shí)現(xiàn)更高幀率的強(qiáng)實(shí)時(shí)目標(biāo)。
這些技術(shù)疊加,使 LightX2V 不僅在單機(jī)單卡上易于部署,也可以順暢擴(kuò)展到多卡集群。
模型與硬件生態(tài):從 Wan 到國(guó)產(chǎn)芯片
為了方便創(chuàng)作者直接受益于上述優(yōu)化,LightX2V 面向主流模型和硬件做了系統(tǒng)支持:
模型生態(tài):當(dāng)前已支持 Wan2.1 / Wan2.2、CogVideo1.5、HunyuanVideo1.5 等主流視頻生成模型,以及 Matrix Game、MagicDrive 等世界模型,并在這些模型上提供 4 步或少步數(shù)配置與加速方案。應(yīng)用生態(tài):LightX2V 深度集成 ComfyUI,LightVAE 等核心組件已進(jìn)入社區(qū)主干工作流,用戶可以在熟悉的圖形界面中直接調(diào)用加速推理。硬件生態(tài):除 NVIDIA 3060 / 4090 / 5090 及 A100 / A800 / H100 / H800 / H200 等顯卡外,LightX2V 還原生支持寒武紀(jì) MLU590、沐曦 C500 等國(guó)產(chǎn) AI 芯片,為本地化、大規(guī)模部署提供了基礎(chǔ)。
使用與落地:從個(gè)人創(chuàng)作到企業(yè)集群
在實(shí)際使用上,LightX2V 覆蓋了從個(gè)人到企業(yè)的不同需求:
個(gè)人開(kāi)發(fā)者:只需要一臺(tái)帶獨(dú)顯的筆記本或臺(tái)式機(jī),就可以本地啟動(dòng)帶前端界面的視頻生成工具,在 ComfyUI 中完成素材調(diào)試、風(fēng)格迭代和項(xiàng)目輸出。企業(yè)用戶:通過(guò) LightX2V 的服務(wù)化部署方案,可以一鍵搭建面向外部的 API 服務(wù)和 Web 應(yīng)用,并按需擴(kuò)展到多機(jī)多卡集群,支持批量視頻生產(chǎn)和內(nèi)部工具集成。普通用戶:可直接訪問(wèn)網(wǎng)頁(yè)版入口 x2v.light-ai.top,在瀏覽器中體驗(yàn)少步視頻生成和實(shí)時(shí)預(yù)覽。
從圖像轉(zhuǎn)視頻、文本轉(zhuǎn)視頻,到世界模型和自動(dòng)駕駛仿真,LightX2V 試圖用開(kāi)源的方式,把 “高質(zhì)量、低成本、強(qiáng)實(shí)時(shí)” 的視頻生成能力交到更多人手里。





京公網(wǎng)安備 11011402013531號(hào)