近日,字節跳動宣布開源其內部開發的 VeOmni 框架,這是一款專注于多模態模型訓練的統一框架。隨著人工智能技術的不斷發展,特別是從單一語言模型向文本、圖像和視頻的多模態演進,算法工程師們在訓練過程中面臨諸多挑戰,特別是訓練流程的碎片化問題。為了應對這些困擾,VeOmni 應運而生。
VeOmni 由字節跳動的 Seed 團隊與火山機器學習平臺共同研發,旨在實現 “統一多模態、統一并行策略和統一算力底座” 的目標。該框架通過提供統一的 API,將多種混合并行策略整合到一個框架中,支持各種模型的快速訓練。無論是大規模語言模型、視覺語言模型,還是視頻生成模型,開發者都可以輕松上手。
該框架具備顯著的性能優化能力。例如,它通過顯存計算的雙優化策略,能夠在保證顯存充足的情況下,最大限度地減少額外計算開銷。此外,VeOmni 還采用了多維并行體系,支持不同的并行原語,從而有效降低顯存峰值。這些技術的結合,使得 VeOmni 在實際訓練中表現出色,相比同類開源方案,其訓練吞吐量提升了40% 以上。
在蒸餾加速方面,VeOmni 也展現了其強大的優勢。通過集成多種前沿的蒸餾技術,用戶可以顯著減少模型推理所需的步驟和資源消耗,從而加速模型的部署和應用。
VeOmni 框架的開源,不僅提升了字節跳動內部模型訓練的效率,也為更多的 AI 研究者和開發者提供了一個強大的工具,助力多模態 AI 技術的發展。
劃重點:





京公網安備 11011402013531號