年初,OpenAI 推出文本-視頻生成模型 Sora,只需輸入提示文本描述,或輸入一張圖片,Sora 就能生成類似電影大片的逼真場景視頻,前所未有的新奇觀感,讓大眾直呼「現實不存在了」。
驚嘆之余,Sora 所展現出的神奇「魔法」,也讓業界意識到 AI 視頻生成在高清晰度、高保真度、高質量方面的巨大潛力與價值。
此后,AI 視頻生成模型搖身一變成為科技圈新的寵兒,并一改之前大語言模型一家獨大的格局為兩者的分庭抗禮。
「Sora熱」開始席卷全球,直到現在,國內外相關的 AI 視頻生成模型或產品工具都將 Sora 奉為業界標桿,沿著一條類 Sora、比肩 Sora、超越 Sora 的道路狂奔。
但不可否認,相較于大語言模型的「狂飆」,目前 AI 視頻生成技術還處于早期階段,距離「ChatGPT」式的爆發仍有一段距離。即便強大如 Sora,也并非完美,在技術端依舊存在著許多未解的問題與挑戰。
為此,在當下, 如何利用大模型技術的強大能力,破解 AI 視頻生成領域的難題,更大程度上地釋放 AI 生產力,助推 AI 視頻生成再往前進一步,是業界在不斷思考和探索的重心。
前幾天,在世界人工智能大會上,阿里達摩院發布了一站式 AI 視頻創作平臺——尋光,似乎為 AI 視頻生成的發展帶來了新的范式。
可控編輯、一致性難以實現,現有 AI 工作流亟待重塑
關注 Sora 的業界從業者應該都知道幾個月前的著名「打假貼」事件。
簡單來說,當時 Sora 一經發布,OpenAI 為了展示其強大能力和維持話題熱度,邀請了一些專業創作者、行業 KOL 等試用 Sora,并時不時放出雙方合作生成的創意視頻,吸引大眾目光。
其中,有一個合作方是來自于多倫多的 Shy Kids 團隊,他們使用 Sora 制作的《Air Head(氣球人)》短片,因為創意新穎、將藝術與 AI 技術的完美結合,得到了大眾的一致贊美,更有甚者將之稱為「Sora 史上最佳短片作品」。
可是令人意想不到的是,后來制作團隊發文稱,《Air Head》并非由 Sora 一鍵生成,在實際的制作過程中,有大量的視覺效果是經過人工后期編輯而成,才呈現出最終效果。

據他們介紹,整個短片是由多個視頻片段組成的,但是在生成不同的視頻片段時,很難保證主角始終是個長著黃色氣球腦袋的人,有時候氣球上會自動「長出」一張人臉,或者依照常識給主角安裝一個不符合劇情的腦袋,等等,bug多到創作人員頻頻吐槽「生成過程很難控制」。
另外,還有角色對象一致性的問題。
在短片中,主角的衣服和那頂標志性的黃色氣球腦袋充斥著劇情的始終,「絲滑」到看不出這是由多個視頻片段組成的。但實際上,Sora 并不能夠保證不同分鏡頭之間的主體一致性,僅僅依靠輸入提示詞,就想讓主角的衣服和氣球顏色保持一致根本不可行。這也是為什么后期需要那么多的人工參與。
彼時新聞一出,業界在感到震驚之余,也意識到,即便是 Sora,生成內容都需要大量的人工參與,難以為這些問題提供良好的解決方案,那么可想而知在整個領域中這些問題的普遍性。
的確如此。
據達摩院視覺技術實驗室高級算法專家陳威華介紹,在尋光平臺的研發過程中,團隊對當下的一眾現有視頻創作工具進行了大量的調研,并走訪了許多視頻創作者,對目前業界存在的問題匯總、分析之后發現,當前在 AI 視頻生成領域,對于生成內容的可控編輯、一致性等問題是創作過程中的重要需求,也是當前算法面臨的最大挑戰。
「現有 AI 工作流亟待重塑。」
在他看來,如今各種視頻生成大模型已經讓大家感受到了 AI 技術帶來的福利,給短視頻制作提供了各種各樣的素材。而在素材齊全之后,接下來要做的就是進一步提升視頻制作的效率,解決視頻后期編輯中存在的各種問題。
而這也正是達摩院推出尋光平臺的初衷。
據雷峰網了解,此次達摩院發布的尋光平臺,定位為 PUGC 一站式 AI 視頻創作平臺,能夠解決 AI 視頻編輯不夠精準可控的痛點,可支持接入多種視頻生成模型,并在行業首次落地基于圖層的視頻編輯,為復雜視頻創作提供了更高效、易用的 AI 工作流。
「我們的目標是用 AI 能力去重塑傳統視頻制作的整個流程,打造 AI 時代的全新視頻工作流。尋光視頻創作平臺,最大的特點是讓用戶實現對視頻內容的精準控制,同時可以保持多個視頻中角色和場景的一致性。」陳威華說道。
「讓編輯像操作PPT一樣簡潔直觀,容易上手」
在發布現場,陳威華形容尋光平臺的推出,會對當前的視頻創作工作流進行優化,使得 AI 視頻生成的工作范式發生新的變革,「讓編輯像操作 PPT 一樣簡潔直觀,容易上手」。

那么,尋光平臺具體是怎么做到的呢?其實可以通過幾個關鍵詞來認識它。
一個是「一站式 AI 視頻創作平臺」,如何理解?
大家都知道,當前市面上存在各種各樣的 AI 視頻生成工具,但是仔細看下來,當創作者想要創作一個視頻時,可能需要不同的工具來生成文字、圖片、分鏡頭等素材,最后再把它們匯總放在一起,生成最終的視頻。但在這個過程中,創作者往往需要在不同工具間流轉,獲取不同的素材,不僅耗時,而且容易出錯,對創作者來說十分不友好。
而有了尋光平臺,直接可以一步到位,不再需要再多個平臺中間來回「轉場」。
比如,用戶在創作時,從劇本創作、分鏡生成到素材編輯等全套操作,都可以在尋光平臺上完成。另外,通過工作流整合提升了創作全流程的效率,支持對生成及上傳素材進行豐富的 AI 編輯,提供人物控制、場景控制、風格遷移、運鏡控制、目標新增/消除/修改等十多種 AI 編輯功能,讓視頻中的元素和對象精準可控。

舉例來說,對于視頻中的分鏡頭,用戶可以選擇在平臺上通過劇本自動生成,也可以選擇自己上傳原始視頻素材,由算法切分成多個分鏡頭。
另外,在創作空間中,如果用戶在查看分鏡頭的時候,發現有些細節需要完善,那么就可以通過編輯工具欄對分鏡頭做進一步的編輯,不再像傳統的視頻制作過程那樣,需要專門的工具來制作,然后再進行復制粘貼等操作。
可以說,一站式的工作流程,體現了尋光在用戶交互上面的友好,而這正是它的一大亮點所在。
據了解,尋光平臺是目前業界首個一站式 AI 視頻創作平臺。

第二個關鍵詞是首創「基于圖層的視頻編輯」。
前面在 Sora 的案例中提到,AI 視頻生成創作中,多個分鏡頭之間的場景與人物的一致性是至關重要的,其中的一個關鍵因素就在于分鏡頭中的視頻圖層,如果能夠基于圖層,在語義層面而不是像素層面實現可控編輯,是不是就能保證內容的一致性呢?尋光就是這樣做的。
具體來看,尋光平臺是通過把視頻圖層相關的各項能力以一個系統性的方式完整地呈現給用戶,讓用戶基于圖層進行視頻的編輯、創作,主要包括前景圖層的生成、圖層拆解、圖層融合等環節,從而保證視頻的一致性。
比如,尋光平臺上有個前景圖層功能,用戶可以通過輸入文本生成符合文本描述的、并且具有透明背景的視頻圖層。
另外,尋光平臺還提供圖層拆解功能,即如果用戶想從自己的已有視頻素材中提取需要的圖層,那么就可以使用拆解功能,算法就會把整段視頻中對應物體的內容拆解出來,然后形成一個獨立的帶透明背景的視頻圖層。


獲得了視頻圖層后,針對不同的創作需求,用戶就可以通過尋光平臺上的「圖層融合」功能,將前景圖層與不同的背景進行融合,從而生成各種各樣的視頻。

比如,以「小和尚練功」的視頻為例。
在原視頻中,小和尚正在練功,背景環境中有寺廟、竹林。那么,如果想要讓小和尚在不同的背景環境中練功,就可以通過尋光平臺的圖層拆解功能,將小和尚作為一個整體圖層拆解出來,然后根據具體的創作需求,將小和尚與不同的背景環境融合,生成新的視頻。



寫在最后
看到尋光平臺居然可以實現這么強大的功能,是不是有被震撼到?原來 AI 視頻生成也可以這么簡單。
如今,類 Sora 產品層出不窮。在世界人工智能大會上,不少國內廠商的視頻生成模型也展示出令人驚艷的效果。但不可否認的是,它們距離廣泛應用還有很長的距離,原因就在于AI視頻編輯流程復雜、門檻高,并不是人人都可以流暢玩轉。
而達摩院推出的尋光平臺,定位為解決當前業界類 Sora 產品涌現之后的編輯與創作問題,聚焦該如何滿足人類日益增長的想象力與 AI 生產力之間的需求,希望借此真正釋放 AI 生產力。
按照官方所展示的功能,尋光平臺將對傳統視頻制作的整個流程進行重塑,在不久的將來,每個人都擁有、并熟練使用 AI 視頻生成工具將變成可能。到那時候,我們或許會距離 AI 視頻生成迎來「ChatGPT」式爆發再近一步。
「我們希望尋光視頻創作平臺就是每一個人手中的利器,是 AIGC 時代,每一個人的專屬視頻工作室。」陳威華說。
據雷峰網了解,尋光平臺將于近期開放內測,感興趣的創作者們可以來試用!
官網地址:https://xunguang.damo-vision.com/





京公網安備 11011402013531號