這兩天,國(guó)產(chǎn)3A游戲黑神話·悟空引爆全網(wǎng),火到了海外,而在AI視頻領(lǐng)域,快手可靈也在海外大殺特殺,連馬斯克也忍不住上線稱贊。
8月20日,馬斯克在創(chuàng)作者“dvorahfr”的評(píng)論區(qū)留言:“AI娛樂產(chǎn)業(yè)正在加速變革”,盛贊了一條用Grok和可靈AI制作的短片。

過去半年,AI視頻圈的熱度可以說從未停止,不少國(guó)內(nèi)外網(wǎng)友都想著借AI顛覆好萊塢。各種經(jīng)典畫面在網(wǎng)上一通發(fā)酵,掀起了一陣陣AI生成短視頻的熱潮。
比如,有網(wǎng)友借助Grok 2的生圖能力,和可靈、DreamMachine等相結(jié)合,生成了各種令人瞠目結(jié)舌的場(chǎng)景:

Grok 2+可靈

Grok 2+Gen 3

Grok+DreamMachine
與此同時(shí),已經(jīng)推出視頻模型的廠商們也在馬不停蹄地迭代產(chǎn)品。
8月19日,Luma AI更新了v1.5版本,有大神就利用它的文生視頻功能,制作起了電影特效:

8月18日,Runway發(fā)布了Gen-3 Alpha Turbo圖像轉(zhuǎn)視頻模型,生成速度提升了7倍。
再往前,引起病毒式傳播的“Ted演講者”也是由AI直接視頻化的:

大半年過去,AI給視頻生產(chǎn)和交互體驗(yàn)帶了什么樣的改變?爆火出圈的產(chǎn)品哪個(gè)性價(jià)比最高?本文進(jìn)行了一波綜合盤點(diǎn)。

AI生成視頻進(jìn)化到哪了?評(píng)價(jià)標(biāo)準(zhǔn)是什么
年初OpenAI的虛晃一槍,讓國(guó)內(nèi)外不少企業(yè)“卷”起了視頻生成,今年上半年AI視頻生成工具有關(guān)話題幾度迎來熱度高峰。
早已被大家熟知的Runway帶來了新一代模型“Gen-3”,將可生成時(shí)長(zhǎng)拉長(zhǎng)至10秒。
Pika在AI視頻基礎(chǔ)上,不斷推出諸如一鍵添加音效、延長(zhǎng)視頻、對(duì)口型等新功能。
甚至有AI創(chuàng)企Luma從3D模型領(lǐng)域轉(zhuǎn)型AI視頻,發(fā)布Dream Machine。
國(guó)內(nèi),字節(jié)和快手相繼推出即夢(mèng)、可靈AI,一經(jīng)發(fā)布就吸引了全球網(wǎng)友的青睞。
智象未來、愛詩(shī)科技等專注視覺大模型的AI企業(yè),接連上線了HiDream、PixVerse等可用的AI視頻工具。
前兩周,大模型廠商智譜AI也發(fā)布了旗下的AI視頻工具“清影”,并將模型“CogVideoX”開源。
今年7月,生數(shù)科技旗下的視頻模型Vidu面向公眾開放,還大大縮短了生成AI視頻所需要的時(shí)間。
這些視頻工具不同于此前剪映推出的數(shù)字人、AI一鍵成片等功能,更像是AI靠自己的知識(shí)儲(chǔ)備,“無中生有”般生成的視頻內(nèi)容。
AI既要理解用戶的指令,還要生成的內(nèi)容之間前后銜接、內(nèi)容連貫。
據(jù)我們了解,當(dāng)前,AI從業(yè)者普遍認(rèn)可的AI視頻生成的評(píng)估標(biāo)準(zhǔn),至少有3個(gè)方面:語義理解、畫面美觀度以及可控性。
語義理解通常在于文生視頻領(lǐng)域,主要看AI能否理解用戶表達(dá)的指令,簡(jiǎn)單來說,比如讓AI生成一個(gè)女孩,它得往年輕、活潑的形象上塑造,不能是一位老太太,否則就是語義理解能力不夠。
畫面美觀度,通常包含視頻的畫面元素合理性、畫質(zhì)是否精細(xì)、是否有掉幀閃爍等問題,而可控性則是動(dòng)作幅度加大的同時(shí),能否保證畫面不出現(xiàn)畸變。
現(xiàn)在的主流視頻模型都在往這三大方向進(jìn)行優(yōu)化。生數(shù)科技CEO唐家渝此前接受媒體采訪時(shí)提出,未來會(huì)持續(xù)在模型層面改進(jìn),提升AI視頻的語義理解、可控性等方面的效果。
除此之外,和模型的交互也是重要的維度之一。谷歌VideoPoet模型作者于力軍曾公開表示,視頻生成交互是極簡(jiǎn)和動(dòng)態(tài)的,文字表達(dá)宏觀的信息,圖片提供細(xì)節(jié)指引,通過任意的輸入和編輯,模型會(huì)自己理解和生成。
這也對(duì)應(yīng)了產(chǎn)品的易用程度如何。過去,我們可能需要在復(fù)雜的操作界面上進(jìn)行編輯修改,才能實(shí)現(xiàn)預(yù)期效果,現(xiàn)在可能只需要打打字,就能獲得初版預(yù)覽視頻。

橫測(cè)10款熱門AI生成視頻工具,
都有哪些優(yōu)缺點(diǎn)
那么,從一年多前慘不忍睹的威爾史密斯吃面,到現(xiàn)在動(dòng)輒生成10秒以上的AI視頻,我們離電影級(jí)別的AI視頻生成還有多遠(yuǎn)?
上述提到的幾項(xiàng)評(píng)價(jià)標(biāo)準(zhǔn),近日“AI”集中實(shí)測(cè)了目前最熱門的10個(gè)AI生成視頻工具,嘗試分析這些問題。


超強(qiáng)語義理解能力,文生視頻躍升新臺(tái)階
文生視頻,最關(guān)鍵的其實(shí)就是投喂給AI的提示詞要怎么寫。我們結(jié)合主流AI視頻工具發(fā)布的提示詞文檔,總結(jié)了一個(gè)相對(duì)普適的提示詞公式:
提示詞:主體+運(yùn)動(dòng)方式+場(chǎng)景+鏡頭語言(可選)+氛圍(可選)根據(jù)這個(gè)公式,我們列了一組包含了人物、動(dòng)作、環(huán)境以及鏡頭語言的提示詞,盡可能覆蓋測(cè)試到AI視頻生成的不同維度,比如涉及了人物、細(xì)節(jié)把握、鏡頭語言以及數(shù)字。看看有沒有符合預(yù)期的視頻。
提示詞:一位戴著黑框眼鏡的女孩靜靜地坐在咖啡店里,手中捧著印有數(shù)字6的咖啡杯,周圍是溫馨輕松的氛圍。鏡頭采用室內(nèi)中景,聚焦于女孩和她手中的咖啡杯。prompt:A girl wearing black-framed glasses sits quietly in a coffee shop, holding a coffee cup with the number 6 printed on it, surrounded by a warm and relaxed atmosphere. The camera captures a medium shot taken indoors, focusing on the girl with her glasses and her coffee cup.需要注意的是,本文涉及到的測(cè)試都只選取了首次生成的視頻效果,生成等待時(shí)間也參考了免費(fèi)版本所花時(shí)間。
可以看到,Vidu在人物生成上表現(xiàn)出了較高的穩(wěn)定性,動(dòng)作變化也較為自然。
眼鏡、數(shù)字、鏡頭語言都一一拿捏,除了畫面中出現(xiàn)了2個(gè)人物外,稱得上合格的生成視頻。

Vidu生成視頻
和Vidu一樣,可靈生成的畫面也非常流暢,背景營(yíng)造出人頭攢動(dòng)的咖啡店場(chǎng)景。
遺憾的是,可靈在數(shù)字生成上仍存在短板,無法一次精準(zhǔn)獲得數(shù)字效果。

可靈生成視頻
PixVerse對(duì)語義理解較為精準(zhǔn),提示詞中的要素都一一呈現(xiàn),生成的人物動(dòng)作幅度也很明顯。但也因此出現(xiàn)了“手指異常”,以及眼睛歪斜等技術(shù)瑕疵。

PixVerse生成視頻
即夢(mèng)最初的生成效果尚可,但視頻穩(wěn)定性上有所欠缺,到后期“數(shù)字6”搖身一變成為了咖啡拉花,女孩的五官也變得不再可控。

即夢(mèng)生成視頻
清影生成的咖啡熱氣細(xì)節(jié)相當(dāng)細(xì)節(jié),特寫鏡頭感拉滿。但遺憾的是,主體運(yùn)動(dòng)上并沒有符合我們提示詞所寫的內(nèi)容。

清影生成視頻
HiDream生成的人物面部控制到位,但無法正確理解提示詞中“女孩捧著咖啡杯”,出現(xiàn)了多余的畫面元素。

HiDream生成視頻
Luma更新v1.5后,整體畫面呈現(xiàn)的內(nèi)容更豐富,不僅僅只有“女孩”一個(gè)主角,動(dòng)作幅度也更大,在光影、構(gòu)圖上也比較自然。只不過,仔細(xì)看人物的手部、牙齒還是有AI的痕跡。

Luma DreamMachine生成視頻
由于Pika模型本身在動(dòng)畫效果上更勝一籌,所以生成的女孩也逃不開動(dòng)畫的影子。整體畫面也只是眨眨眼的微動(dòng),也無法識(shí)別出精確的數(shù)字。

Pika生成視頻
Stable Video生成的視覺效果較好,人物外貌、場(chǎng)景、手指細(xì)節(jié)都沒有出現(xiàn)崩壞,但整體運(yùn)動(dòng)更像圖片平移。
值得一提的是,Stable Video的視頻生成邏輯和其他家都不同。
或許是因?yàn)镾table Video本身在文生圖上具有一定的技術(shù)優(yōu)勢(shì),所以它是先生成4張圖片,用戶從中挑選1張后,再根據(jù)這張圖生成動(dòng)態(tài)視頻。

Stable Video生成視頻
在人物類鏡頭上,Runway Gen-3依舊是最能打的。
整個(gè)畫面運(yùn)動(dòng)非常符合邏輯,也沒有明顯的畫面瑕疵,除了缺少“數(shù)字6”這樣的細(xì)節(jié)外,Gen-3這輪表現(xiàn)還是相當(dāng)出色。

Runway Gen-3生成視頻
總的來說,在文生視頻這一環(huán)節(jié),Vidu、可靈、Runway在語義理解、人物生成、畫面可控上表現(xiàn)更為穩(wěn)定,生成視頻的可用度較高,可以大大減少新手抽卡次數(shù)。相比之下,其他幾家的盲抽概率更大。
另外,在生成等待時(shí)間上,Vidu和可靈所花時(shí)間最少,生成1個(gè)4-5秒的視頻,大約只需要等待2-5分鐘。Luma DreamMachine生成等待時(shí)間最長(zhǎng),不幸的話需要等待10多個(gè)小時(shí)才能獲得一條5秒的視頻。
從PPT“偽視頻”到動(dòng)幅明顯,AI擺脫切片式畫面
圖生視頻功能上,我們還是選用了經(jīng)典梗圖作為實(shí)測(cè)素材。
一方面,“威爾史密斯吃面”在一年前就曾火爆AI圈。另一方面,作為人物類案例,涉及手指、人物外貌、物理世界理解,它可以更直觀地呈現(xiàn)AI視頻生成的幾個(gè)維度。

圖片X平臺(tái)Will Smith
擅長(zhǎng)吃播的快手可靈在這張圖上也有天然優(yōu)勢(shì),在可靈的加持下,感覺盤子里的面看著都更香了。
從畫面來看,吃的動(dòng)作、手指細(xì)節(jié)都沒有太大的問題。

可靈生成視頻
Vidu是另一個(gè)讓我驚喜的視頻工具,雖然威爾史密斯的臉部發(fā)生了畸變,但在視頻流暢性、動(dòng)作幅度上都超出預(yù)期。

Vidu生成視頻
清影生成的畫面在畫面一致性上比較好,但動(dòng)作過于緩慢,有些違背正常吃飯的速度,不夠自然。

清影生成視頻
PixVerse主要還是集中在手部和臉部問題上,手部的細(xì)節(jié)到最后糊成了一團(tuán),還多了額外的元素。

PixVerse生成視頻
即夢(mèng)乍一看視頻流暢,畫面過得去,但它的AI一定有個(gè)“中國(guó)胃”,吃著吃著叉子變成了筷子。
可惜的是,在努力讓畫面元素豐富的同時(shí),即夢(mèng)并不能保證其穩(wěn)定性。

即夢(mèng)生成視頻
HiDream和Stable Video這次的翻車有點(diǎn)嚴(yán)重,除了面條自行消失外,手部也出現(xiàn)了較為明顯的瑕疵。

HiDream生成視頻

Stable Video生成視頻
乍一看,Luma生成視頻還比較正常,但在結(jié)尾的時(shí)候突然出現(xiàn)了明顯的動(dòng)作異常,開始逐漸往“鬼畜”的方向走了。

Luma DreamMachine生成視頻
Runway Gen-3這輪直接上演一個(gè)“假吃”,人物面部也和我們上傳的圖片可以說毫無關(guān)系。

Runway Gen-3生成視頻
看到這里,各位還記得威爾史密斯長(zhǎng)什么樣嗎?
按道理來說,在技術(shù)上,圖生視頻應(yīng)該比文生視頻實(shí)現(xiàn)難度更低,畢竟圖生視頻給予AI具體的參考物體。但在人物吃播鏡頭上,上述10款工具表現(xiàn)都不如預(yù)期,角色可控性上還是有所欠缺,幾乎都上演了“3秒內(nèi)換臉”的絕技。
但除了人物穩(wěn)定性之外,我們更容易感知的是,可靈、Vidu在手部細(xì)節(jié)以及“吃”的真實(shí)感上取得了優(yōu)勢(shì),能夠生成動(dòng)作幅度更大,更理解物理世界的視頻內(nèi)容。

卷時(shí)長(zhǎng)、拼價(jià)格,誰是性價(jià)比之王?
當(dāng)然,即便是以上相對(duì)集中的橫向測(cè)試,也不能說明全部。AI生成工具能產(chǎn)生的價(jià)值還是在于每個(gè)人結(jié)合實(shí)際需求的使用。
無論是文生圖、文生視頻,還是圖生視頻,目前為止應(yīng)該沒有一個(gè)模型能夠完美適用于所有的場(chǎng)景和任務(wù)。
換句話說,每個(gè)視頻模型都可能針對(duì)特定的任務(wù)和數(shù)據(jù)類型進(jìn)行了優(yōu)化。一個(gè)模型可能更擅長(zhǎng)生成現(xiàn)實(shí)風(fēng)格的視頻,而另一個(gè)可能更擅長(zhǎng)卡通或抽象風(fēng)格。
比如,Vidu就有特定的動(dòng)畫風(fēng)格,Runway Gen-3更擅長(zhǎng)電影鏡頭,可靈在人物表現(xiàn)上有明顯優(yōu)勢(shì)等等。
對(duì)大部分玩家而言,如果不追求極致的視頻效果,想不斷進(jìn)行抽卡,目前幾家的免費(fèi)額度已經(jīng)夠逐一嘗鮮。
其中,即夢(mèng)提供了較高的積分?jǐn)?shù)量(505積分)和較低的生成成本(最低3積分),相比之下,用戶可以用較少的積分生成更長(zhǎng)的視頻。
但如果追求更優(yōu)質(zhì)的鏡頭畫面、更快的生成速度,可靈和Vidu綜合訂閱價(jià)格以及抽卡概率,會(huì)是不錯(cuò)的選擇。Runway的文生視頻可玩性最高,對(duì)于新手來說,極易獲得成就感,但價(jià)格上并不占優(yōu)勢(shì)。
即使是這樣“上手可用”的狀態(tài)下,很多主流的AI視頻工具也還是有一定的改進(jìn)空間。
AI視頻的普遍痛點(diǎn)——畫面準(zhǔn)確性和可控性,依舊是非常常見的問題。
對(duì)此,一些AI企業(yè)會(huì)通過“事前控制”的方式,讓視頻可控性得到提升。比如,PixVerse和Runway上線了動(dòng)態(tài)筆刷,盡量讓人物外貌、背景保持一致的情況下,畫面動(dòng)起來。可靈、即夢(mèng)、Dream Machine推出了視頻首尾幀功能,讓生成視頻盡量符合物理規(guī)律。
這些功能背后的技術(shù)難度不大,但更難的是現(xiàn)階段阻礙視頻工具發(fā)展的算力、數(shù)據(jù)和算法,同步影響生成視頻的速度、質(zhì)量和效果。
此前,有新聞報(bào)道指出,Runway、蘋果、OpenAI、英偉達(dá)等都在互聯(lián)網(wǎng)上收集高質(zhì)量的視頻資源,其中YouTube網(wǎng)站是其中大部分?jǐn)?shù)據(jù)來源,很大一部分還是未經(jīng)創(chuàng)作者授權(quán)的“非法”獲取。
對(duì)于視頻訓(xùn)練AI來說,需要大量光線、細(xì)節(jié)、人物、時(shí)長(zhǎng)、鏡頭等等都不同的畫面,進(jìn)一步進(jìn)行標(biāo)注后,提升AI生成的精準(zhǔn)度。所以優(yōu)質(zhì)的視頻數(shù)據(jù)遠(yuǎn)比文字圖像更難獲得。
縱觀AI視頻生成領(lǐng)域,除了引發(fā)大量模型復(fù)刻追趕的Sora尚未發(fā)布,被譽(yù)為“國(guó)產(chǎn)Sora”“Sora平替”的各種視頻生成工具,都已是“現(xiàn)貨”狀態(tài)。
那么,AI會(huì)主導(dǎo)未來的視頻工作流嗎?
要知道,在視頻畫面中,只有鏡頭的來回運(yùn)動(dòng)是沒有意義的。從PPT到真正的AI短片,除了不斷優(yōu)化畫面的美觀程度,還有聲音、鏡頭語言、轉(zhuǎn)場(chǎng)等等。
現(xiàn)階段,我們除了用AI生成需要的畫面之外,剪輯、配樂、畫面轉(zhuǎn)場(chǎng)都需要人工后期完成。
從Midjourney、Flux生成圖像,再在Runway、可靈上制作視頻,然后到PR、剪映等剪輯軟件上進(jìn)行升級(jí)改造,這樣的工作流并不少見,甚至是目前主流的AI視頻工作流。
未來是否會(huì)有一個(gè)AI原生視頻編輯平臺(tái),在一個(gè)應(yīng)用間實(shí)現(xiàn)跨模態(tài)的內(nèi)容,從文字開始,一鍵生成視頻?

個(gè)人開發(fā)者建的AI原生視頻編輯平臺(tái):https://clapper.app/
我們?cè)贕ithub上發(fā)現(xiàn)了這個(gè)想法的雛形,有網(wǎng)友將現(xiàn)有的生成式AI技術(shù)集合在一個(gè)平臺(tái),讓任何人都可以使用AI一站式制作視頻。相信在不遠(yuǎn)的將來,AI原生工作流會(huì)取代現(xiàn)有的編輯流程,成為創(chuàng)建視頻的新思路。





京公網(wǎng)安備 11011402013531號(hào)