![]()
這項由新加坡電商巨頭Shopee公司大語言模型團隊主導(dǎo)的研究發(fā)表于2025年10月,主要作者包括張永順、范忠毅、張永杭等多位研究員。研究成果以預(yù)印本形式在arXiv平臺發(fā)布,編號為arXiv:2510.17519v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。這項研究的重要意義在于,它首次公開了一套完整的大規(guī)模視頻生成模型訓(xùn)練代碼和框架,為整個AI視頻生成領(lǐng)域的發(fā)展提供了寶貴的開源資源。 如今,當(dāng)我們刷抖音或看YouTube時,很難想象這些視頻背后可能隱藏著AI的身影。AI視頻生成技術(shù)正在悄然改變著我們的視覺世界,就像幾年前AI繪畫突然爆火一樣。而在這個快速發(fā)展的領(lǐng)域中,訓(xùn)練一個能夠生成高質(zhì)量視頻的AI模型,就像培養(yǎng)一位全能的電影制作人一樣復(fù)雜。 Shopee團隊面臨的挑戰(zhàn)就像是要同時教會一個學(xué)生學(xué)會畫畫、編劇、導(dǎo)演和剪輯。AI需要理解文字描述中的含義,還要掌握視頻中物體的運動規(guī)律,更要確保畫面在時間軸上保持連貫性。這遠(yuǎn)比靜態(tài)圖片生成復(fù)雜得多,因為視頻涉及時間維度,每一幀都要與前后幀保持邏輯關(guān)系,就像制作一部動畫片時,每個角色的動作都必須符合物理規(guī)律。 研究團隊開發(fā)的MUG-V 10B模型擁有100億個參數(shù),這相當(dāng)于給AI配備了一個超級大腦,能夠處理文本到視頻、圖片到視頻等多種生成任務(wù)。更重要的是,這個模型特別擅長生成電商相關(guān)的視頻內(nèi)容,比如商品展示、試穿效果等,這對于Shopee這樣的電商平臺具有直接的商業(yè)價值。 這項研究的突破性在于,它不僅提供了一個性能優(yōu)秀的模型,更重要的是首次完整開源了訓(xùn)練這樣大規(guī)模視頻生成模型的全套代碼和框架。這就像是一位頂級廚師不僅做出了美味佳肴,還毫無保留地公開了完整的食譜、烹飪技巧和廚房設(shè)備配置。 一、數(shù)據(jù)處理:為AI準(zhǔn)備優(yōu)質(zhì)"食材" 就像做菜需要精選食材一樣,訓(xùn)練AI視頻生成模型首先需要大量高質(zhì)量的視頻數(shù)據(jù)。Shopee團隊面臨的第一個挑戰(zhàn)就是從海量的原始視頻中篩選出適合訓(xùn)練的素材,這個過程就像是在圖書館里為學(xué)生挑選最合適的教科書。 研究團隊首先建立了一套可擴展的視頻處理流水線,這個系統(tǒng)就像一個超級智能的視頻編輯師,能夠自動處理大量原始視頻素材。整個處理過程分為幾個重要步驟,每一步都像制作紀(jì)錄片時的不同工序。 視頻分割是第一個關(guān)鍵步驟,就像將一部長電影切分成不同的場景片段。研究團隊使用了PySceneDetect工具和自主開發(fā)的Color-Struct SVM方法相結(jié)合的方案。PySceneDetect主要負(fù)責(zé)識別明顯的鏡頭切換,而CSS方法則專門處理那些漸隱漸現(xiàn)等過渡效果。這種組合就像配備了兩種不同類型的剪刀,一把用于快速裁剪,另一把用于精細(xì)修飾。團隊根據(jù)不同數(shù)據(jù)源的特點調(diào)整識別閾值,確保能夠準(zhǔn)確分割出語義連貫的視頻片段。 接下來是嚴(yán)格的視覺質(zhì)量篩選過程,這就像珠寶鑒定師在挑選鉆石時要檢查多個維度。研究團隊設(shè)計了四道質(zhì)量檢驗關(guān)卡。首先是清晰度測試,使用OpenCV的拉普拉斯變分度量來評估圖像邊緣清晰程度,只有變分值在200到2000之間的視頻幀才能通過,這確保了畫面足夠清晰但不會過度銳化。 美學(xué)評分環(huán)節(jié)采用了類似LAION的美學(xué)預(yù)測器,就像藝術(shù)品鑒定專家一樣為每個視頻片段打分,只有得分超過4.5分的內(nèi)容才能入選。運動幅度檢測則使用RAFT光流估算技術(shù),通過分析視頻開頭、中間和結(jié)尾三個均勻分布的幀對來計算平均光流幅度。研究團隊發(fā)現(xiàn),運動幅度小于1的視頻往往過于靜態(tài),而大于20的則過于動態(tài),都不適合訓(xùn)練,所以只保留中等動態(tài)范圍的內(nèi)容。 最后一道關(guān)卡是多模態(tài)大語言模型過濾器,這就像配備了一位經(jīng)驗豐富的視頻制作專家。研究團隊使用在2.4萬個標(biāo)注視頻上微調(diào)的專有模型來識別那些經(jīng)過重度后期處理的內(nèi)容,包括文字覆蓋、大邊框、特效處理、變速播放和攝像頭抖動等問題。這個過濾器就像一位嚴(yán)格的質(zhì)檢員,確保進入訓(xùn)練集的視頻都是高質(zhì)量的原始素材。 字幕生成是另一個關(guān)鍵環(huán)節(jié),因為高質(zhì)量的文字描述直接影響著AI的學(xué)習(xí)效果。研究團隊首先在公開數(shù)據(jù)集和內(nèi)部標(biāo)注片段上微調(diào)了Qwen2-VL-72B模型,專門優(yōu)化其描述物體、外觀、運動和背景上下文的能力。隨后,他們將這種能力蒸餾到更小的Qwen2-VL-7B模型中,在保持準(zhǔn)確性的同時大幅提升了處理速度,這就像培訓(xùn)出了一支既專業(yè)又高效的字幕創(chuàng)作團隊。 為了控制數(shù)據(jù)分布偏差和消除重復(fù)內(nèi)容,研究團隊開發(fā)了一套智能的數(shù)據(jù)平衡和去重系統(tǒng)。他們使用大語言模型解析字幕內(nèi)容,提取關(guān)鍵實體信息如主體、動作和場景,構(gòu)建了一個輕量級的本體分類系統(tǒng)。這個系統(tǒng)有兩個重要作用:一是進行分層采樣,確保那些代表性不足的類別獲得足夠的權(quán)重;二是識別近似重復(fù)的視頻片段并將其移除。整個過程就像圖書管理員在整理藏書時,既要確保各個學(xué)科的書籍?dāng)?shù)量均衡,又要避免同一本書出現(xiàn)多次。 除了基礎(chǔ)的預(yù)訓(xùn)練數(shù)據(jù)處理,研究團隊還專門為后期訓(xùn)練階段準(zhǔn)備了人工標(biāo)注的高質(zhì)量數(shù)據(jù)集。這個數(shù)據(jù)集的準(zhǔn)備過程更加精細(xì),就像為高端餐廳挑選食材一樣嚴(yán)格。他們首先從完整預(yù)訓(xùn)練集中篩選出排名前10%的高分視頻片段,然后有意提高以人為中心的視頻比例,包括人物動作、復(fù)雜身體運動和人物與物體的交互場景。研究團隊發(fā)現(xiàn),雖然剛性物體的動態(tài)相對容易學(xué)習(xí),但人體關(guān)節(jié)運動仍然是一個主要瓶頸,而這恰恰是真實用戶查詢中最常見的內(nèi)容。 人工質(zhì)量標(biāo)注過程更是精益求精,標(biāo)注員需要從三個維度評估每個候選視頻片段:運動連續(xù)性要求沒有跳切或變速;內(nèi)容穩(wěn)定性要求沒有場景變化、溶解或拼接;視覺保真度要求畫面清晰且沒有重度后期處理痕跡。任何一個維度不合格的片段都會被丟棄,最終形成的數(shù)據(jù)集在視覺和時間一致性方面都達(dá)到了極高標(biāo)準(zhǔn)。 為了進一步提升模型性能,研究團隊還收集了針對偏好優(yōu)化的人工標(biāo)注數(shù)據(jù)。這包括兩種類型的標(biāo)注:成對比較標(biāo)注讓標(biāo)注員在兩個生成視頻之間選擇在整體美學(xué)、運動平滑度和視覺錯誤嚴(yán)重程度方面更優(yōu)的那個;絕對正確性標(biāo)注則獨立檢查每個片段是否與提示語義匹配、主體是否在整個序列中保持一致,以及是否存在物理或渲染錯誤。這種雙重標(biāo)注機制為后續(xù)的偏好學(xué)習(xí)階段提供了強有力的支持,使模型能夠迭代改進生成質(zhì)量并系統(tǒng)性地減少物理錯誤。 二、模型設(shè)計:構(gòu)建AI視頻生成的"大腦" 在完成數(shù)據(jù)準(zhǔn)備后,研究團隊需要設(shè)計模型的核心架構(gòu),這就像為一臺超級計算機設(shè)計主板和處理器。MUG-V 10B采用了當(dāng)前主流的潛在擴散變換器框架,整個系統(tǒng)由兩個主要組件構(gòu)成:一個負(fù)責(zé)視頻壓縮的視頻變分自編碼器(Video VAE)和一個負(fù)責(zé)生成的10億參數(shù)擴散變換器(DiT)。 視頻VAE的設(shè)計就像創(chuàng)造一位超級壓縮專家,它需要在保持視頻質(zhì)量的同時將數(shù)據(jù)量大幅縮減。這個組件沿著時間、高度和寬度三個維度實現(xiàn)8×8×8的壓縮比例,相當(dāng)于將原始視頻體積縮小512倍。結(jié)合后續(xù)擴散變換器中的非重疊2×2空間分塊操作,整個系統(tǒng)相對于像素空間實現(xiàn)了約2048倍的壓縮比例。這種極高的壓縮比例為后續(xù)處理帶來了巨大的效率提升。 在Video VAE的架構(gòu)設(shè)計上,研究團隊從公開可用的圖像VAE開始,通過混合卷積堆棧將其擴展到視頻域。每個下采樣階段都交替使用2D空間卷積和3D卷積,前者捕獲幀內(nèi)紋理特征,后者建模幀間運動信息。這種混合設(shè)計既保留了全3D編碼器的表現(xiàn)力,又相比純3D方案顯著降低了計算復(fù)雜度。 與以往分離"空間"和"時間"處理路徑的方法不同,研究團隊采用了統(tǒng)一架構(gòu),同時對每個維度進行8倍下采樣。最終的潛在張量Z編碼了外觀和運動線索的緊湊形式。由于高壓縮比可能損害保真度,研究團隊擴大了瓶頸的通道維度來增強潛在容量。通過消融研究發(fā)現(xiàn),增加通道數(shù)C能夠顯著改善重建質(zhì)量,最終選擇C=24作為質(zhì)量和存儲預(yù)算之間的最佳平衡點。 Video VAE設(shè)計中的一個重要創(chuàng)新是"最小編碼原則"。傳統(tǒng)的時序因果卷積雖然在許多Video VAE實現(xiàn)中廣泛使用,但存在信息不平衡問題。當(dāng)當(dāng)前幀到片段起始位置的距離小于編碼器的時序感受野時,早期令牌聚合的上下文信息少于后期令牌,造成潛在序列的信息密度不均。研究團隊提出的最小編碼原則強制每個潛在令牌作為獨立單元,僅從其對應(yīng)的幀塊(在他們的設(shè)置中為8幀)中導(dǎo)出,不進行超出此時序窗口的信息交換。 這種設(shè)計理念基于一個重要觀察:Video VAE的主要職責(zé)是壓縮和重建,而非生成。由于單位幀段已經(jīng)包含了重建自身所需的外觀和運動線索,進一步的上下文混合是不必要的,甚至可能產(chǎn)生捷徑學(xué)習(xí)。最小編碼原則還帶來了靈活的潛在接口:同一編碼器可用于任意序列長度、圖像到視頻或視頻續(xù)寫任務(wù),以及首幀、中間幀或末幀條件等特殊情況。 在解碼器設(shè)計上,研究團隊采用了共享解碼器策略。解碼器必須從潛在序列重建完整片段,不受上述"最小原則"約束。實驗發(fā)現(xiàn),一次性向解碼器輸入適當(dāng)長度的潛在序列比強制單位重建收斂更快。為了平衡吞吐量和內(nèi)存使用,團隊在訓(xùn)練時使用單潛在編碼,但在解碼器輸入窗口中變化使用1、4、8個連續(xù)潛在令牌。運行時,編碼器和解碼器簡單地重塑輸入以匹配選擇的窗口大小。 MUG-V 10B擴散變換器是整個系統(tǒng)的生成核心,擁有100億參數(shù),能夠同時處理文本到視頻、圖像到視頻和文本加圖像到視頻的合成任務(wù)。模型主干采用DiT架構(gòu),確保與最先進擴散技術(shù)的兼容性。整個DiT主干由四個組件構(gòu)成:輸入分塊、文本條件網(wǎng)絡(luò)、堆疊DiT塊和輸出反分塊。 在變換器塊設(shè)計上,研究團隊沒有采用某些圖像或視頻擴散模型中使用的MM-DiT塊,而是選擇了與自回歸語言模型密切對齊的變換器塊架構(gòu)。在自注意力和前饋網(wǎng)絡(luò)之間插入交叉注意力模塊,使文本嵌入和視覺令牌能夠直接交互。這種設(shè)計確保了文本條件能夠有效地指導(dǎo)視頻生成過程。 在注意力機制的選擇上,當(dāng)前DiT變體要么采用全注意力,即時空序列中的每個令牌都關(guān)注其他所有令牌,要么采用時空分離注意力,將注意力限制在局部鄰域以減少計算量。全注意力提供更強的全局一致性,例如片段開始和結(jié)束時出現(xiàn)的同一人物或背景可以直接交互。由于Video VAE和分塊方案帶來的高壓縮比,全注意力不會產(chǎn)生過高的計算成本,因此研究團隊在整個模型中采用了全注意力機制。 為了讓全注意力能夠捕獲準(zhǔn)確的位置線索,研究團隊?wèi)?yīng)用了三維旋轉(zhuǎn)位置嵌入(3D RoPE),將原始的一維公式擴展到聯(lián)合編碼空間和時間坐標(biāo)。這種設(shè)計讓模型能夠精確理解視頻中每個元素的時空位置關(guān)系。 在全局信號嵌入方面,擴散時間步和視頻幀率等全局信號按照現(xiàn)有方法進行嵌入。共享MLP將每個全局標(biāo)量映射到模型維度,每塊可學(xué)習(xí)的縮放參數(shù)調(diào)制結(jié)果向量,在表現(xiàn)力和內(nèi)存效率之間取得平衡。 標(biāo)準(zhǔn)化處理對于大規(guī)模模型的訓(xùn)練穩(wěn)定性至關(guān)重要。除了自注意力內(nèi)部的QK標(biāo)準(zhǔn)化外,研究團隊還對輸入文本特征和交叉注意力模塊進行標(biāo)準(zhǔn)化。實驗證明,這些層顯著減少了參數(shù)波動,減輕了損失波動,在訓(xùn)練過程中產(chǎn)生更少的視覺偽影。 在圖像或幀條件視頻生成方面,研究團隊設(shè)計了一種新穎的條件策略。他們不是將條件潛在向量添加到去噪潛在向量中,而是對視頻序列進行掩碼處理。條件區(qū)域接收給定的圖像或幀潛在表示,擴散時間步設(shè)為零(不添加噪聲),而其余令牌遵循標(biāo)準(zhǔn)的噪聲擴散軌跡。這種策略在預(yù)訓(xùn)練期間既澄清了時間步信號,又在推理時對提供的視覺內(nèi)容產(chǎn)生更高的保真度。 三、訓(xùn)練策略:循序漸進的學(xué)習(xí)之路 訓(xùn)練一個100億參數(shù)的視頻生成模型就像培養(yǎng)一位世界級的藝術(shù)家,需要科學(xué)的教學(xué)方法和循序漸進的學(xué)習(xí)過程。研究團隊設(shè)計了一套完整的多階段訓(xùn)練策略,確保模型能夠穩(wěn)定高效地學(xué)習(xí)復(fù)雜的視頻生成技能。 Video VAE的訓(xùn)練采用了復(fù)合損失函數(shù),就像用多種評價標(biāo)準(zhǔn)來衡量學(xué)生的綜合表現(xiàn)。損失函數(shù)包含三個互補的組成部分:重建損失、KL散度正則化和對抗損失。重建損失是加權(quán)的MSE、L1和感知損失的組合,分別鼓勵像素級準(zhǔn)確性和感知保真度。KL散度項對潛在分布進行正則化,抑制異常值并促進平滑插值。對抗損失僅在最終微調(diào)階段應(yīng)用,用于銳化紋理和顏色細(xì)節(jié),但研究團隊將其權(quán)重保持在較小值并監(jiān)控驗證PSNR和SSIM指標(biāo),避免過度對抗訓(xùn)練導(dǎo)致的色調(diào)偏移或細(xì)節(jié)過度增強。 為了解決模型容易重建全局結(jié)構(gòu)但在高動態(tài)、精細(xì)細(xì)節(jié)區(qū)域出現(xiàn)振蕩的問題,研究團隊引入了自適應(yīng)重建權(quán)重技術(shù)。對于每個重建幀,他們計算時空顯著性圖,結(jié)合拉普拉斯算子提取高頻空間邊緣和時間前向差分突出快速運動。然后使用這個權(quán)重圖形成加權(quán)損失項替代普通的L1組件。具有快速時空變化的區(qū)域因此貢獻更大的梯度信號,在不增加額外數(shù)據(jù)傳遞的情況下改善收斂。 在擴散變換器的訓(xùn)練中,研究團隊面臨的主要挑戰(zhàn)是如何在有限的計算資源下高效訓(xùn)練如此大規(guī)模的模型??紤]到執(zhí)行詳盡的縮放定律研究和超參數(shù)搜索需要大量計算資源,他們采用了兩階段工作流程:首先訓(xùn)練緊湊模型,然后將其參數(shù)擴展到100億規(guī)模繼續(xù)訓(xùn)練。 參數(shù)擴展策略借鑒了零樣本超參數(shù)轉(zhuǎn)移研究的思路。研究團隊固定目標(biāo)深度為56個變換器塊,構(gòu)建了隱藏尺寸為1728的較小DiT(約20億參數(shù))。這個小模型的低訓(xùn)練成本和快速推理使其成為快速實驗和方案驗證的理想選擇。一旦20億模型達(dá)到滿意的視頻生成質(zhì)量,他們通過隱藏尺寸等變擴展將其放大。 擴展策略與HyperCloning擴展方法密切相關(guān),都是在保持網(wǎng)絡(luò)功能行為的同時增加通道寬度。對于權(quán)重矩陣W和偏置向量b,通過因子e擴展隱藏維度時,將原始參數(shù)平鋪并除以e以保持特征縮放不變。同時添加隨機擾動以避免梯度重復(fù)問題。這種輸出保持?jǐn)U展策略加速了收斂,而小模型階段大幅降低了整體實驗成本。 多階段預(yù)訓(xùn)練課程是訓(xùn)練策略的核心創(chuàng)新。視頻數(shù)據(jù)的異構(gòu)性質(zhì)使得課程學(xué)習(xí)對視頻生成模型訓(xùn)練特別有效。在低空間分辨率下,語義內(nèi)容占主導(dǎo)地位;隨著分辨率增加,更豐富的紋理特征開始出現(xiàn)。同時,視頻可以被視為靜態(tài)圖像的動態(tài)擴展,運動是在外觀基礎(chǔ)上學(xué)習(xí)的。 基于這些特性,研究團隊采用了三階段課程。第一階段混合圖像數(shù)據(jù)和低分辨率360p視頻片段,圖像到視頻的比例在訓(xùn)練期間逐漸調(diào)整直到視頻占主導(dǎo),此時模型能夠可靠生成合理的圖像和粗糙的視頻片段。第二階段保持360p分辨率但將片段長度從2秒增加到5秒,訓(xùn)練持續(xù)到驗證損失趨于平穩(wěn)。第三階段將訓(xùn)練集替換為5秒720p片段,從約1200萬高質(zhì)量視頻中精選,構(gòu)成最終預(yù)訓(xùn)練階段。 需要注意的是,參數(shù)擴展前的較小模型僅使用圖像和360p視頻;前述圖像或幀條件的掩碼策略與文本到視頻生成預(yù)訓(xùn)練兼容,在第二和第三階段都引入了首幀掩碼。這個課程不僅指導(dǎo)模型逐步獲得視頻生成技能,還提升了訓(xùn)練效率。在第一和第二階段,較短序列和更高吞吐量讓模型看到比第三階段多十倍的樣本,培養(yǎng)了穩(wěn)健的通用能力。第三階段雖然計算成本高,但通過嚴(yán)格篩選的高分辨率數(shù)據(jù)完善了細(xì)節(jié)。 多階段預(yù)訓(xùn)練完成后,驗證損失趨于平穩(wěn)并開始振蕩,模型輸出呈現(xiàn)兩種持續(xù)的失效模式:精細(xì)粒度偽影(特別是在人手等關(guān)節(jié)區(qū)域)和基本物理合理性違背(如穿透和變形)。為進一步改善生成質(zhì)量,研究團隊采用了兩種后訓(xùn)練方法:帶后EMA的退火監(jiān)督微調(diào)和基于偏好的優(yōu)化。 退火監(jiān)督微調(diào)使用精心挑選的約30萬高質(zhì)量片段,在這個子集上繼續(xù)訓(xùn)練并逐漸降低學(xué)習(xí)率。研究團隊比較了在線指數(shù)移動平均參數(shù)平滑和后驗EMA變體,后者不僅消除了昂貴的EMA超參數(shù)網(wǎng)格搜索需求,還更可能產(chǎn)生更高的視頻質(zhì)量。他們通過指數(shù)衰減模型集成近似后驗EMA,這在概念上類似于模型合并策略,在他們的設(shè)置中實驗效果優(yōu)于標(biāo)準(zhǔn)在線EMA。 偏好優(yōu)化方面,雖然基于偏好的強化學(xué)習(xí)在大語言模型中取得顯著成功,但其在視頻生成中的應(yīng)用仍然具有挑戰(zhàn)性,主要由于當(dāng)前視頻評估模型的有限能力和優(yōu)化軸的多樣性(如外觀、運動、時間一致性等)。研究團隊因此求助于人工標(biāo)注偏好,專注于兩個目標(biāo):無錯誤生成和運動質(zhì)量。 對于穿透、變形或其他物理不合理性等失效,他們收集絕對正負(fù)標(biāo)簽并使用KTO算法優(yōu)化模型。為改善動態(tài)真實性,他們獲得成對"更好或更差"標(biāo)注并應(yīng)用DPO算法。在偏好優(yōu)化期間保留原始監(jiān)督微調(diào)目標(biāo)作為正則化器,減輕了模型采用不良統(tǒng)計偏差的風(fēng)險。通過多階段進行偏好優(yōu)化并交替使用不同標(biāo)注源的批次,模型能夠順序暴露不同類別的錯誤,實現(xiàn)持續(xù)的質(zhì)量改進。 四、基礎(chǔ)設(shè)施:強大計算支撐的幕后英雄 訓(xùn)練一個100億參數(shù)的視頻生成模型就像指揮一支龐大的交響樂團,需要精密的協(xié)調(diào)和強大的基礎(chǔ)設(shè)施支撐。研究團隊基于Megatron-Core構(gòu)建了高效的訓(xùn)練框架,專門應(yīng)對視頻生成模型面臨的三大核心挑戰(zhàn):處理長序列的全注意力機制、擴展到數(shù)十億參數(shù),以及在訓(xùn)練過程中保持?jǐn)?shù)值精度。 模型并行策略是解決大規(guī)模訓(xùn)練的關(guān)鍵技術(shù)。由于視頻數(shù)據(jù)的長序列特性比語言模型預(yù)訓(xùn)練產(chǎn)生更高的動態(tài)內(nèi)存消耗,研究團隊系統(tǒng)地探索了并行化技術(shù)以最大化吞吐量。他們的混合方案巧妙結(jié)合了數(shù)據(jù)并行、張量并行、流水線并行和序列并行四種技術(shù)。 具體實施時,團隊首先在單個節(jié)點內(nèi)啟用張量并行。為了減輕長序列的內(nèi)存負(fù)擔(dān),他們通過序列并行在張量并行組內(nèi)分片激活。接著應(yīng)用流水線并行,垂直分割層級并利用點對點通信來利用節(jié)點間帶寬,同時禁用激活重計算。最后引入數(shù)據(jù)并行來擴大有效批量大小并改善訓(xùn)練穩(wěn)定性。通過廣泛的基準(zhǔn)測試,他們確定了一個在100億規(guī)模下提供近線性效率擴展的最優(yōu)配置,從而最大化硬件利用率。 數(shù)據(jù)加載和計算平衡是另一個關(guān)鍵優(yōu)化點。除了優(yōu)化參數(shù)更新,高效的數(shù)據(jù)攝取對整體訓(xùn)練吞吐量至關(guān)重要。研究團隊構(gòu)建了帶有激進預(yù)取和緩存的異步IO流水線,將數(shù)據(jù)預(yù)處理和傳輸與計算重疊以隱藏延遲。為了最小化由可變視頻序列長度引起的流水線停頓,他們還引入了跨所有等級的動態(tài)平衡采樣。這個方案確保每個GPU接收計算成本相當(dāng)?shù)呐?,減少空閑周期并進一步改善硬件利用率。 內(nèi)核融合技術(shù)為模型訓(xùn)練帶來了顯著的性能提升。為了減少DiT的像素級調(diào)制和殘差路徑帶來的內(nèi)存開銷,研究團隊設(shè)計了兩級融合:低級內(nèi)核融合和塊重構(gòu)。在低級別,他們將三個緊密耦合的操作合并為單個GPU內(nèi)核:線性層偏置加法、逐像素縮放位移調(diào)制和殘差累積。將讀取-計算-寫入序列合并為一次傳遞,將全局內(nèi)存事務(wù)從N次減少到1次。 融合內(nèi)核采用Triton手寫實現(xiàn),利用warp級shuffle在不產(chǎn)生共享內(nèi)存溢出的情況下廣播偏置和調(diào)制向量。持久線程調(diào)度模式保持中間數(shù)據(jù)在寄存器中駐留于三個融合階段,將帶寬利用率推向硬件極限并進一步削減內(nèi)存流量。 在更高層級,研究團隊重構(gòu)DiT塊以暴露額外的融合機會。LayerNorm與QKV投影融合執(zhí)行,消除額外的內(nèi)存往返。注意力分?jǐn)?shù)掩碼直接折疊到FlashAttention-2 softmax內(nèi)核中,避免分?jǐn)?shù)矩陣的冗余讀取。靜態(tài)形狀推理去除不必要的填充,確保完全合并訪問。這些優(yōu)化協(xié)同降低了內(nèi)存流量,增加了算術(shù)強度,并提供了端到端的加速效果。 通過這些系統(tǒng)級優(yōu)化,研究團隊在配備500個Nvidia H100 GPU的系統(tǒng)上實現(xiàn)了近線性擴展。整個基礎(chǔ)設(shè)施不僅支持高效訓(xùn)練,還為模型推理和應(yīng)用部署提供了堅實基礎(chǔ)。這套完整的基礎(chǔ)設(shè)施解決方案與模型權(quán)重和訓(xùn)練代碼一起開源,為研究社區(qū)提供了寶貴的資源。 五、模型表現(xiàn):從實驗數(shù)據(jù)到實際應(yīng)用 經(jīng)過精心設(shè)計和訓(xùn)練的MUG-V 10B模型在各種評估中展現(xiàn)出了優(yōu)異的性能表現(xiàn),就像一位經(jīng)過嚴(yán)格訓(xùn)練的藝術(shù)家終于登臺表演。研究團隊從多個維度對模型進行了全面評估,不僅包括標(biāo)準(zhǔn)的自動化指標(biāo),還特別關(guān)注了在電商視頻生成這一實際應(yīng)用場景中的表現(xiàn)。 在標(biāo)準(zhǔn)的VBench評估協(xié)議中,MUG-V 10B在多項指標(biāo)上表現(xiàn)出色。VBench是視頻生成領(lǐng)域廣泛使用的綜合基準(zhǔn)測試,涵蓋了時間一致性、運動動態(tài)和感知美學(xué)等多個維度。具體評估包括主體一致性、背景一致性、運動平滑度、動態(tài)程度、美學(xué)質(zhì)量和成像質(zhì)量六個核心指標(biāo)。此外,針對圖像到視頻任務(wù),還增加了視頻-文本攝像機運動、視頻-圖像主體一致性和視頻-圖像背景一致性三個專門指標(biāo)。 評估結(jié)果顯示,MUG-V 10B在幾乎所有指標(biāo)上都表現(xiàn)強勁。在提交時,該模型在VBench I2V排行榜上排名第三,僅次于Magi-1和某個商業(yè)系統(tǒng)。特別值得注意的是,模型在保持較小參數(shù)規(guī)模(100億)的情況下,達(dá)到了與那些參數(shù)量更大的模型相當(dāng)甚至更優(yōu)的性能水平。這證明了研究團隊在模型設(shè)計和訓(xùn)練策略上的有效性。 然而,研究團隊深知自動化指標(biāo)存在的局限性。現(xiàn)有指標(biāo)往往忽略了一些細(xì)粒度的缺陷,比如織物紋理的微妙變化或手部姿勢的輕微錯誤,而這些細(xì)節(jié)對產(chǎn)品保真度至關(guān)重要。因此,他們專門設(shè)計了針對電商視頻生成任務(wù)的人工評估實驗,這為模型的實際應(yīng)用價值提供了更直接的證據(jù)。 在電商視頻生成的人工評估中,研究團隊將MUG-V 10B與兩個領(lǐng)先的開源模型HunyuanVideo和Wan 2.1進行了直接對比。測試輸入隨機抽樣自公開可用的模型展示間圖像,每種方法都使用其默認(rèn)提示生成器創(chuàng)建視頻提示并生成5秒片段。所有片段被混合并隨機排序,然后由三名獨立標(biāo)注員并行評估,最終標(biāo)簽通過共識決定。 評估過程分為三個階段,每個階段都像電影評審一樣嚴(yán)格。首先,標(biāo)注員判斷片段是否明顯由AI生成,考慮錯誤存在(從物理不合理性到小偽影)和整體視覺真實性。這個階段主要評估生成內(nèi)容是否能夠達(dá)到"以假亂真"的程度。 第二階段針對被認(rèn)為足夠真實的片段,標(biāo)注員評估產(chǎn)品相對于輸入圖像的一致性,要求顏色、材料、紋理和其他屬性保持不變。只有同時滿足這兩個標(biāo)準(zhǔn)的片段才被認(rèn)為可在電商中部署。這個標(biāo)準(zhǔn)非常嚴(yán)格,因為電商應(yīng)用中產(chǎn)品信息的準(zhǔn)確性直接關(guān)系到消費者的購買決策。 第三階段針對可部署的片段,標(biāo)注員判斷視頻是否"高質(zhì)量",以專業(yè)攝影和模型表現(xiàn)的特征為標(biāo)準(zhǔn)。評估結(jié)果顯示,MUG-V 10B在通過率和高質(zhì)量率兩個指標(biāo)上都取得了領(lǐng)先成績。具體來說,該模型生成的電商視頻中有更大比例能夠通過"真實性"和"產(chǎn)品一致性"的雙重檢驗,同時在視覺質(zhì)量方面也表現(xiàn)更佳。 盡管取得了這些令人鼓舞的結(jié)果,研究團隊也誠實地指出了當(dāng)前的局限性。他們觀察到殘留的小偽影和幾何扭曲仍然限制著整體質(zhì)量,這表明在電商應(yīng)用中還有substantial headroom for improvement。這種客觀的自我評估體現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度,也為未來的改進指明了方向。 在Video VAE的重建質(zhì)量評估中,研究團隊使用了標(biāo)準(zhǔn)指標(biāo)PSNR、SSIM、LPIPS和FloLPIPS,針對真實世界片段進行驗證。結(jié)果顯示,他們的Video VAE在這些指標(biāo)上超越了大多數(shù)比較模型。雖然在720p設(shè)置下的SSIM分?jǐn)?shù)略低于CogVideoX VAE,但考慮到8×8×8的更高壓縮比(相比CogVideoX的4×8×8),這代表了效率和質(zhì)量之間的有利平衡。定性示例顯示,飄散的煙霧和快速變化的紋理等精細(xì)細(xì)節(jié)都得到了忠實再現(xiàn)。 研究團隊還提供了豐富的可視化示例,展示了模型在文本到視頻和圖像到視頻兩種主要任務(wù)中的生成效果。這些示例涵蓋了各種場景,從自然風(fēng)光到人物動作,從靜物展示到動態(tài)交互,充分展現(xiàn)了模型的多樣性和靈活性。特別是在電商相關(guān)場景中,模型能夠很好地處理服裝展示、產(chǎn)品演示等常見需求。 值得一提的是,這些評估結(jié)果的獲得離不開研究團隊在整個訓(xùn)練流程中的精心設(shè)計。從數(shù)據(jù)處理的嚴(yán)格篩選,到模型架構(gòu)的創(chuàng)新設(shè)計,再到訓(xùn)練策略的循序漸進,每一個環(huán)節(jié)都為最終的優(yōu)異表現(xiàn)貢獻了力量。這也證明了在AI模型開發(fā)中,系統(tǒng)性的方法比單點突破更為重要。 六、技術(shù)創(chuàng)新:突破傳統(tǒng)的巧思妙想 MUG-V 10B的成功不僅僅依賴于大規(guī)模的計算資源和數(shù)據(jù),更重要的是研究團隊在多個技術(shù)環(huán)節(jié)上的創(chuàng)新突破。這些創(chuàng)新就像建筑師在設(shè)計摩天大樓時的巧妙構(gòu)思,每一個看似微小的改進都對整體性能產(chǎn)生了重要影響。 最小編碼原則是Video VAE設(shè)計中的一個重要創(chuàng)新。傳統(tǒng)方法中,時序因果卷積被廣泛采用,因為它們尊重時間箭頭、允許單一模型編碼可變長度片段,并防止視頻預(yù)測期間來自未來幀的信息泄漏。但是,因果卷積也帶來了問題:當(dāng)當(dāng)前幀到片段原點的距離小于編碼器的時序感受野時,早期令牌聚合的上下文比后期令牌少,在潛在序列中產(chǎn)生信息不平衡。 研究團隊提出的最小編碼原則從根本上解決了這個問題。他們強制每個潛在令牌作為獨立單元僅從其對應(yīng)的幀塊中導(dǎo)出,從而消除了信息密度不平衡。這個設(shè)計基于一個深刻的洞察:Video VAE的主要職責(zé)是壓縮和重建,而不是生成。單位幀段已經(jīng)包含重建自身所需的外觀和運動線索,進一步的上下文混合不僅不必要,甚至可能創(chuàng)造捷徑學(xué)習(xí)。 自適應(yīng)重建加權(quán)是另一個巧妙的技術(shù)創(chuàng)新。研究團隊觀察到,模型在核心目標(biāo)穩(wěn)定后容易重建全局結(jié)構(gòu),但在高動態(tài)、精細(xì)細(xì)節(jié)區(qū)域出現(xiàn)振蕩。為了讓學(xué)習(xí)重點關(guān)注這些困難案例,他們?yōu)槊總€重建幀計算時空顯著性圖,結(jié)合拉普拉斯算子(提取高頻空間邊緣)和時間前向差分(突出快速運動)。具有快速時空變化的區(qū)域因此貢獻更大的梯度信號,在不增加額外數(shù)據(jù)傳遞的情況下改善收斂。 參數(shù)擴展策略展現(xiàn)了研究團隊在資源優(yōu)化方面的智慧。考慮到詳盡的縮放定律研究和超參數(shù)搜索需要大量計算資源,他們采用了創(chuàng)新的兩階段工作流程。首先固定目標(biāo)深度為56個變換器塊,構(gòu)建隱藏尺寸1728的較小DiT(約20億參數(shù))進行快速實驗和方案驗證。一旦小模型達(dá)到滿意質(zhì)量,通過隱藏尺寸等變擴展放大到100億規(guī)模。 這種擴展策略巧妙地平衡了原始參數(shù)的平鋪和隨機擾動,既保持了網(wǎng)絡(luò)的功能行為,又避免了梯度重復(fù)問題。通過設(shè)置擴展因子e=2,總參數(shù)量增加約4倍。這種輸出保持?jǐn)U展策略不僅加速了大模型的收斂,更重要的是小模型階段大幅降低了整體實驗成本。 圖像/幀條件策略的設(shè)計也體現(xiàn)了研究團隊的創(chuàng)新思維。與傳統(tǒng)的將條件潛在向量添加到去噪潛在向量的方法不同,他們采用了掩碼策略:條件區(qū)域接收給定的圖像/幀潛在表示并將擴散時間步設(shè)為零(不添加噪聲),而其余令牌遵循標(biāo)準(zhǔn)噪聲擴散軌跡。這種方法在預(yù)訓(xùn)練期間澄清時間步信號,在推理時對提供的視覺內(nèi)容產(chǎn)生更高保真度。 多階段訓(xùn)練課程體現(xiàn)了教育學(xué)原理在AI訓(xùn)練中的應(yīng)用。研究團隊深刻理解視頻數(shù)據(jù)的異構(gòu)特性:低空間分辨率下語義內(nèi)容占主導(dǎo),高分辨率下紋理特征豐富,而視頻本質(zhì)上是靜態(tài)圖像的動態(tài)擴展?;谶@些洞察,他們設(shè)計了從圖像-低分辨率短視頻,到低分辨率長視頻,再到高分辨率長視頻的漸進式訓(xùn)練過程。 這個課程設(shè)計的巧妙之處在于,早期階段的較短序列和更高吞吐量讓模型接觸到比最終階段多十倍的樣本,培養(yǎng)了穩(wěn)健的通用能力。而最終階段雖然計算成本高,但通過嚴(yán)格篩選的高分辨率數(shù)據(jù)完善了細(xì)節(jié)處理能力。這種漸進式學(xué)習(xí)不僅提高了訓(xùn)練效率,還確保了模型能力的全面發(fā)展。 偏好優(yōu)化的雙軌制設(shè)計展現(xiàn)了實用主義的創(chuàng)新精神。面對當(dāng)前視頻評估模型能力有限和優(yōu)化目標(biāo)多樣化的挑戰(zhàn),研究團隊求助于人工標(biāo)注偏好,但采用了針對性的雙軌制策略。對于具體的錯誤類型如穿透、變形等物理不合理性,使用絕對正負(fù)標(biāo)簽和KTO算法;對于整體的運動質(zhì)量,使用成對比較和DPO算法。這種分類處理的方法既保證了優(yōu)化的針對性,又提高了訓(xùn)練的效率。 內(nèi)核融合技術(shù)的設(shè)計體現(xiàn)了系統(tǒng)優(yōu)化的深度思考。研究團隊不滿足于簡單的算法優(yōu)化,而是深入到GPU內(nèi)核級別進行優(yōu)化。他們將線性層偏置加法、逐像素縮放位移調(diào)制和殘差累積三個緊密耦合的操作合并為單個GPU內(nèi)核,將全局內(nèi)存事務(wù)從N次減少到1次。采用Triton手寫實現(xiàn),利用warp級shuffle技術(shù),確保中間數(shù)據(jù)在寄存器中駐留,將帶寬利用率推向硬件極限。 這些技術(shù)創(chuàng)新的集成效應(yīng)遠(yuǎn)大于各部分的簡單相加。最小編碼原則確保了數(shù)據(jù)表示的一致性,自適應(yīng)加權(quán)提升了學(xué)習(xí)效率,參數(shù)擴展降低了實驗成本,多階段課程保證了能力發(fā)展,偏好優(yōu)化解決了質(zhì)量問題,而內(nèi)核融合則榨取了硬件性能的最后一滴潛力。正是這些看似獨立卻相互支撐的創(chuàng)新,共同鑄就了MUG-V 10B的優(yōu)異表現(xiàn)。 七、開源貢獻:為社區(qū)打造的技術(shù)寶庫 MUG-V 10B項目最令人欽佩的地方在于其完全開源的態(tài)度,這就像一位頂級廚師不僅做出了美味佳肴,還毫無保留地公開了完整的食譜、烹飪技巧和廚房設(shè)備配置。研究團隊的開源承諾為整個AI視頻生成社區(qū)提供了前所未有的寶貴資源。 據(jù)研究團隊介紹,這是首次有團隊公開發(fā)布利用Megatron-Core實現(xiàn)高訓(xùn)練效率和近線性多節(jié)點擴展的大規(guī)模視頻生成訓(xùn)練代碼。這個貢獻的重要性怎么強調(diào)都不為過,因為它填補了學(xué)術(shù)界和工業(yè)界之間的重要空白。以往,雖然研究論文會詳細(xì)描述算法和方法,但實際的工程實現(xiàn)細(xì)節(jié)往往是缺失的,這讓其他研究者很難復(fù)現(xiàn)或改進相關(guān)工作。 完整的開源棧包含了多個層面的內(nèi)容。首先是模型權(quán)重的完整發(fā)布,這意味著研究者和開發(fā)者可以直接使用訓(xùn)練好的模型進行實驗和應(yīng)用開發(fā),而無需從零開始訓(xùn)練。這大大降低了進入這個領(lǐng)域的門檻,特別是對那些計算資源有限的小型研究團隊或個人開發(fā)者來說。 更重要的是,基于Megatron-Core的大規(guī)模訓(xùn)練代碼的開源為社區(qū)提供了一個高質(zhì)量的起點。Megatron-Core是NVIDIA開發(fā)的先進并行訓(xùn)練框架,能夠有效處理大規(guī)模模型的訓(xùn)練挑戰(zhàn)。研究團隊在此基礎(chǔ)上的改進和優(yōu)化,特別是針對視頻生成任務(wù)的特殊需求所做的適配,現(xiàn)在都可以被社區(qū)直接使用和進一步改進。 推理流水線的開源同樣具有重要價值。一個優(yōu)秀的模型如果沒有高效的推理系統(tǒng)支撐,其實際應(yīng)用價值就會大打折扣。研究團隊提供的推理代碼不僅支持標(biāo)準(zhǔn)的視頻生成功能,還包括了視頻增強等擴展功能,這為開發(fā)者構(gòu)建實際應(yīng)用提供了完整的技術(shù)棧。 項目的開源策略體現(xiàn)了深思熟慮的設(shè)計。代碼結(jié)構(gòu)清晰,文檔詳盡,這使得其他研究者能夠快速理解和使用這些資源。同時,模塊化的設(shè)計意味著開發(fā)者可以根據(jù)自己的需求選擇性地使用某些組件,而不必采用整個系統(tǒng)。 這種開源貢獻對學(xué)術(shù)研究的推動作用是多方面的。首先,它大大降低了相關(guān)研究的重復(fù)工作。其他研究團隊可以在這個堅實的基礎(chǔ)上繼續(xù)創(chuàng)新,而不必花費大量時間重新實現(xiàn)基礎(chǔ)功能。其次,統(tǒng)一的代碼基礎(chǔ)有助于不同研究之間的比較和驗證,提高了整個領(lǐng)域的研究質(zhì)量。 對于工業(yè)應(yīng)用而言,這個開源項目同樣意義重大。企業(yè)可以基于這些經(jīng)過驗證的代碼和模型快速開發(fā)自己的視頻生成應(yīng)用,而不必從零開始投入巨大的研發(fā)成本。這種技術(shù)民主化的效應(yīng)可能會催生更多創(chuàng)新的應(yīng)用場景和商業(yè)模式。 教育價值也不容忽視。對于學(xué)習(xí)AI和深度學(xué)習(xí)的學(xué)生和研究者來說,這個項目提供了一個極佳的學(xué)習(xí)案例。他們可以通過閱讀代碼、運行實驗來深入理解大規(guī)模AI模型的訓(xùn)練和部署細(xì)節(jié),這種實踐經(jīng)驗往往比純理論學(xué)習(xí)更有價值。 研究團隊的開源決定還體現(xiàn)了對整個AI社區(qū)發(fā)展的長遠(yuǎn)考慮。通過分享他們的技術(shù)成果,他們不僅推動了當(dāng)前技術(shù)的普及,更重要的是為未來的創(chuàng)新奠定了基礎(chǔ)。當(dāng)更多的研究者和開發(fā)者能夠在這個基礎(chǔ)上工作時,整個領(lǐng)域的發(fā)展速度必然會顯著加快。 值得注意的是,這種全棧開源的做法在大型AI項目中并不常見。許多公司和研究機構(gòu)往往只會發(fā)布模型權(quán)重或者部分代碼,而將核心的訓(xùn)練和系統(tǒng)優(yōu)化技術(shù)作為競爭優(yōu)勢保留。Shopee團隊的開放態(tài)度展現(xiàn)了他們對推動整個領(lǐng)域發(fā)展的真誠承諾。 從技術(shù)生態(tài)的角度來看,這個項目的開源可能會形成一個良性循環(huán)。當(dāng)更多的研究者和開發(fā)者使用這些代碼時,他們的反饋和改進將使整個系統(tǒng)變得更加穩(wěn)定和高效。同時,基于這個平臺開發(fā)的新功能和優(yōu)化也可能反哺給原項目,形成社區(qū)共同維護和改進的模式。 八、未來展望:技術(shù)進步路上的挑戰(zhàn)與機遇 在展示了MUG-V 10B的優(yōu)異表現(xiàn)之后,研究團隊并沒有停留在成功的喜悅中,而是以科學(xué)家特有的嚴(yán)謹(jǐn)態(tài)度指出了當(dāng)前技術(shù)仍面臨的挑戰(zhàn),并為未來的發(fā)展方向提供了深入的思考。這種客觀的自我評估體現(xiàn)了真正的科學(xué)精神,也為整個領(lǐng)域的發(fā)展指明了方向。 條件信號的忠實度和可控性仍然是需要重點突破的領(lǐng)域。雖然MUG-V 10B已經(jīng)能夠處理文本、圖像或混合輸入等多種條件,但從條件信號到生成視頻的映射還不夠精確和可控。這就像一位翻譯雖然能夠理解多種語言,但在某些細(xì)節(jié)的表達(dá)上還不夠準(zhǔn)確。在實際應(yīng)用中,用戶往往對生成結(jié)果有非常具體的期望,任何細(xì)微的偏差都可能影響最終的使用效果。特別是在商業(yè)應(yīng)用中,這種精確性要求更是至關(guān)重要的。 精細(xì)外觀保真度的問題同樣值得關(guān)注。雖然模型在整體視覺效果上表現(xiàn)出色,但在材質(zhì)和紋理保持方面仍有提升空間。這個問題的根源部分來自于Video VAE的壓縮過程,部分來自于DiT的噪聲初始化,這些因素都可能導(dǎo)致微妙但重要的視覺質(zhì)量降級。就像高端相機在不同ISO設(shè)置下會產(chǎn)生不同程度的噪點一樣,AI模型的各個處理環(huán)節(jié)都可能對最終質(zhì)量產(chǎn)生影響。 擴展到更長時長和更高分辨率是技術(shù)發(fā)展的必然趨勢,但也帶來了新的挑戰(zhàn)。當(dāng)前的算法和系統(tǒng)需要應(yīng)對長序列訓(xùn)練的復(fù)雜性、推理效率的要求,以及長期時間一致性的維持。這不僅僅是計算資源的問題,更是算法設(shè)計的根本性挑戰(zhàn)。就像制作一部長篇電影比制作短片需要更復(fù)雜的劇情架構(gòu)和更精密的制作流程一樣,生成更長的視頻需要模型具備更強的全局規(guī)劃和局部細(xì)節(jié)平衡能力。 面對這些挑戰(zhàn),研究團隊提出了幾個值得深入探索的方向。在條件控制方面,未來的工作可能需要開發(fā)更精細(xì)的條件編碼機制,讓模型能夠更準(zhǔn)確地理解和執(zhí)行用戶的意圖。這可能涉及多模態(tài)理解的進一步提升,以及條件信號與生成過程之間更直接的關(guān)聯(lián)機制。 在視覺質(zhì)量提升方面,研究團隊認(rèn)為需要在壓縮效率和保真度之間找到更好的平衡點。這可能需要開發(fā)新的壓縮算法,或者在訓(xùn)練過程中引入更精細(xì)的質(zhì)量控制機制。同時,對于特定應(yīng)用場景如電商視頻生成,可能需要開發(fā)專門針對產(chǎn)品特性優(yōu)化的模型變體。 長序列處理的挑戰(zhàn)可能需要從多個角度來解決。在算法層面,可能需要開發(fā)更高效的注意力機制或者新的序列建模方法。在系統(tǒng)層面,需要更好的內(nèi)存管理和計算優(yōu)化策略。在訓(xùn)練策略上,可能需要更巧妙的課程學(xué)習(xí)設(shè)計,讓模型能夠逐步適應(yīng)越來越長的序列。 訓(xùn)練效率的持續(xù)優(yōu)化也是一個重要方向。雖然當(dāng)前的系統(tǒng)已經(jīng)實現(xiàn)了近線性擴展,但隨著模型規(guī)模的進一步增長,新的瓶頸可能會出現(xiàn)。這需要在硬件利用、算法優(yōu)化和系統(tǒng)設(shè)計等多個層面持續(xù)創(chuàng)新。 數(shù)據(jù)質(zhì)量和多樣性的提升同樣重要。更高質(zhì)量的訓(xùn)練數(shù)據(jù)不僅能夠提升模型性能,還能減少訓(xùn)練所需的計算資源。同時,數(shù)據(jù)的多樣性直接影響模型的泛化能力和應(yīng)用范圍。如何高效地收集、篩選和處理大規(guī)模高質(zhì)量數(shù)據(jù)將是一個持續(xù)的挑戰(zhàn)。 評估方法的改進也值得關(guān)注。當(dāng)前的自動化評估指標(biāo)雖然有用,但往往無法捕捉到人類視覺系統(tǒng)關(guān)注的細(xì)節(jié)。開發(fā)更好的評估方法,特別是能夠自動檢測細(xì)粒度錯誤的方法,對于推動整個領(lǐng)域的發(fā)展具有重要意義。 從更宏觀的角度來看,視頻生成技術(shù)的發(fā)展還面臨著倫理和社會責(zé)任的考量。隨著技術(shù)越來越逼真,如何防止惡意使用、保護隱私權(quán)利、維護信息真實性等問題變得越來越重要。這需要技術(shù)開發(fā)者、政策制定者和社會各界共同努力。 產(chǎn)業(yè)應(yīng)用的深入也會帶來新的需求和挑戰(zhàn)。不同行業(yè)對視頻生成的要求各不相同,如何開發(fā)既通用又專業(yè)的解決方案,如何在保持技術(shù)先進性的同時降低使用門檻,這些都是值得深入思考的問題。 盡管面臨諸多挑戰(zhàn),但視頻生成技術(shù)的發(fā)展前景依然令人樂觀。隨著計算能力的持續(xù)提升、算法的不斷創(chuàng)新和數(shù)據(jù)資源的日益豐富,我們有理由相信這些技術(shù)難題將逐步得到解決。更重要的是,像MUG-V 10B這樣的開源項目為整個社區(qū)提供了共同努力的基礎(chǔ),這種開放合作的精神將加速技術(shù)進步的步伐。 說到底,MUG-V 10B不僅僅是一個技術(shù)產(chǎn)品,更是人工智能發(fā)展歷程中的一個重要里程碑。它證明了通過系統(tǒng)性的方法、創(chuàng)新的技術(shù)和開放的態(tài)度,我們能夠在復(fù)雜的技術(shù)挑戰(zhàn)面前取得突破。雖然距離完美的AI視頻生成系統(tǒng)還有一段路要走,但每一步扎實的進展都在讓我們更接近那個目標(biāo)。 對于普通人來說,這項技術(shù)的發(fā)展意味著未來我們將能夠更容易地創(chuàng)造高質(zhì)量的視頻內(nèi)容,無論是為了商業(yè)用途還是個人表達(dá)。對于整個社會來說,這種技術(shù)的普及可能會改變內(nèi)容創(chuàng)作的格局,讓更多人能夠參與到視覺故事的講述中來。而對于科技發(fā)展來說,MUG-V 10B所展現(xiàn)的系統(tǒng)性創(chuàng)新方法和開源合作精神,無疑為其他技術(shù)領(lǐng)域的發(fā)展提供了有益的借鑒。 歸根結(jié)底,技術(shù)的價值在于服務(wù)人類,推動社會進步。Shopee團隊通過MUG-V 10B項目不僅推進了AI視頻生成技術(shù)的發(fā)展,更通過開源的方式讓這些先進技術(shù)能夠惠及更廣泛的群體。這種技術(shù)創(chuàng)新與社會責(zé)任相結(jié)合的做法,正是我們在AI時代所需要的發(fā)展模式。隨著更多類似項目的出現(xiàn)和發(fā)展,我們有理由對人工智能技術(shù)的未來保持樂觀和期待。 Q&A Q1:MUG-V 10B是什么? A:MUG-V 10B是由Shopee公司開發(fā)的一個100億參數(shù)的AI視頻生成模型,能夠根據(jù)文字描述或圖片生成高質(zhì)量視頻,特別擅長制作電商相關(guān)的產(chǎn)品展示視頻。 Q2:MUG-V 10B的最大創(chuàng)新是什么? A:該項目的最大創(chuàng)新在于首次完整開源了基于Megatron-Core的大規(guī)模視頻生成模型訓(xùn)練代碼,包括模型權(quán)重、訓(xùn)練框架和推理流水線,為AI視頻生成領(lǐng)域提供了寶貴的技術(shù)資源。 Q3:普通人能使用MUG-V 10B嗎? A:是的,研究團隊已經(jīng)將完整的代碼和模型權(quán)重開源,有技術(shù)背景的開發(fā)者可以直接使用。對于普通用戶,未來可能會有基于這個模型的應(yīng)用產(chǎn)品推出。





京公網(wǎng)安備 11011402013531號