7月24日,愛詩科技正式發(fā)布視頻生成產(chǎn)品 PixVerse V2,全球同步開放,致力用AI視頻大模型為每一個用戶釋放創(chuàng)意可能。
PixVerse V2 采用 Diffusion+Transformer(DiT)基礎架構,并在各方面進行技術創(chuàng)新,提供了更長、更一致、更有趣的視頻生成能力。在模型能力提升的同時,PixVerse V2還帶來了AI視頻生成的全新玩法:在保證一致性的前提下,一次生成多個視頻片段,可實現(xiàn)單片段8秒,和多片段40秒的視頻生成。
一、以DiT架構為基礎,實現(xiàn)多項技術創(chuàng)新
PixVerse V2 采用了 DiT 模型架構,用行業(yè)頂尖的模型訓練效率實踐了視頻大模型的Scaling Law,同時在多個方面運用了獨創(chuàng)的技術實現(xiàn)了卓越的生成效果。
在時空建模方面,PixVerse V2 引入了自研的時空注意力機制,不僅超越了傳統(tǒng)的時空分離和 fullseq 架構,而且顯著提升了對空間和時間的感知能力,使得在處理復雜場景時表現(xiàn)更為出色。
在文本理解方面,PixVerse V2 利用了有更強大理解能力的多模態(tài)模型來提取prompt的表征,有效實現(xiàn)了文本信息與視頻信息的精準對齊,進一步增強了模型的理解和表達能力。
此外,PixVerse V2在傳統(tǒng)flow模型的基礎上進行了優(yōu)化,通過加權損失,促進了模型更快更優(yōu)的收斂,從而提升整體訓練效率。
二、用戶第一,提升AI視頻創(chuàng)作生產(chǎn)力
基于大量用戶反饋和社區(qū)討論,愛詩團隊深刻洞察到一致性是AI視頻創(chuàng)作的核心挑戰(zhàn),因此,PixVerse V2 在設計和優(yōu)化上進行了針對性突破:支持一鍵生成1-5段連續(xù)的視頻內容,且片段之間會保持主體形象、畫面風格和場景元素的一致。這一創(chuàng)新功能,讓用戶能夠圍繞特定主題進行高效而便捷的視頻創(chuàng)作。
PixVerse V2 還支持對生成結果進行二次編輯,通過智能識別內容和自動聯(lián)想功能,用戶可以靈活替換調整視頻主體、動作、風格和運鏡,進一步豐富創(chuàng)作的可能性。愛詩團隊希望在模型性能和美學效果之間尋求平衡,預計未來3個月內還將進行多次迭代升級,提供更好的AI視頻生成體驗。
PixVerse V2 致力讓更多用戶感受到AI視頻創(chuàng)作的樂趣,無論是記錄日常腦海中的靈光乍現(xiàn),還是講述引人入勝的視頻故事,都能變得觸手可及。






京公網(wǎng)安備 11011402013531號