機器之心報道
作者:楊文
我們用17個prompt,實測了一把字節的兩大視頻生成模型。字節憋了個大招。
9 月 24 日,字節跳動旗下的火山引擎在深圳辦了一場 AI 創新巡展,一口氣發布了兩款視頻生成大模型,正式宣告進軍 AI 視頻生成。
這兩款模型,一個名為 PixelDance(以下簡稱 P 模型),一個名為 Seaweed(以下簡稱 S 模型),不僅在審美、動幅上提升了一個 level,還破解了多主體互動和一致性難題。
話不多說,先整幾個視頻讓大家感受下:
一位年輕女生微簇眉頭,生氣地戴上一副墨鏡,這時,男主角入畫,緊緊抱住了她。
這段 10 秒的鏡頭中,人物面部表情變化自然,沒有任何虛化崩壞。
再如,一只金毛小狗在草地上追逐泡泡。
(AI 自動配樂)
視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
以及一個 3D 風格的可愛小女孩正在跳舞。
(AI 自動配樂)
視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
看來,字節這次是把攢了許久的絕活兒,一股腦全倒出來了。
目前,新款豆包視頻生成模型正在即夢 AI 內測版小范圍測試,未來將逐步開放給所有用戶。
我們也在第一時間拿到內測資格,接下來,就奉上新鮮出爐的一手實測。
解鎖多動作、多主體
目前,市面上大部分視頻生成模型,只能完成簡單指令或者單一動作。而這次,豆包視頻生成模型一頓升級,不僅可以遵循復雜 prompt,還能捕捉多動作序列和主體互動。
例如,梵高站在自己的畫作前,捂嘴大笑起來,臉上的褶子都清晰可見;隨即又秒變嚴肅,手緩緩落下,捋捋自己的小胡子。
整套動作行云流水,表情自然逼真。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
再比如,我們輸入 prompt:兩名宇航員行走在夜晚繁華的街道上。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
兩名身穿宇航服的航天員,一前一后漫步在繁華街道上,身后人來人往,兩側的建筑亮起了絢麗的燈光和店招。
眾所周知,AI 最容易犯的毛病之一,就是左右腿不分,或者驚現四條腿。
而在豆包視頻模型中,二人走路姿勢正常,幾乎與真人無異,沒有模糊、扭曲,也沒有出現各種詭異畫面。
我們還輸入了一段形容詞賊多的 prompt:一只蝸牛在雨后的森林地面上緩緩爬行,它身后留下一條閃閃發光的粘液軌跡。蝸牛的觸角謹慎地移動著,它的殼的每一段都有精細的紋理。一個攝像機跟蹤著蝸牛的緩慢旅程。鏡頭非常接近,以至于蝸牛殼和身體上的水滴清晰可見,地面的細節也展現得非常清楚。

豆包模型生成的視頻中,蝸牛柔軟的軀體緩慢向后蠕動,觸角也隨之搖晃。硬硬的殼上有著精細的紋理,上面還沾著細小的水珠。
由于是特寫鏡頭,森林的背景自然虛化,而雨后地面的水洼則清晰可見。
prompt:許多水母在水下游動,它們的身體透明,在深海中發著光。

畫面中出現了大大小小的透明水母,它們輕輕張開傘蓋,再緊緊收縮,觸手也在水中自由擺動。
prompt:寫實,一個小女孩吹生日蠟燭,然后笑了。

鏡頭中,一個頭戴壽星帽的小女孩,張著嘴巴吹蠟燭,臉上露出微笑。同時,身后的親友團,或鼓掌、或拍照。該視頻中的人物不僅多元,動幅也很大。
動作靈活,運鏡酷炫
這次豆包視頻模型還有一大特點 —— 鏡頭多樣。
變焦、環繞、平搖、縮放、目標跟隨等超多鏡頭語言,它都能靈活控制視角,而且視頻細節更豐滿,表情更豐富。
prompt:一個推進鏡頭,沿著樹木成行的郊區住宅街道拍攝,白天,天空晴朗湛藍,色彩飽和,對比度高。

隨著鏡頭緩慢推進,干凈的街道、樹木掩映的成排小別墅映入眼簾,畫面中還展示了優秀的光影效果。
prompt: 北極光在北極天空中舞動,星星閃爍,白雪覆蓋的景觀的延時攝影。

天空舞動的極光,在雪地上映射出相應的顏色。豆包模型生成的這段延時攝影,簡直和紀錄片拍攝的如出一轍。
我們還試了下圖生視頻,上傳圖片后,輸入 prompt:金魚游動,水中冒著氣泡。
別看這個 prompt 簡單, 豆包模型的「腦回路」卻復雜得很。不僅完美遵循文字指令,還學會了搖鏡頭。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
畫面一開始,水缸中的金魚開始游動,并伴隨著大量氣泡。隨后,鏡頭一拉,現出女孩全身,她在水中緩緩轉過身,發絲和寬松的衣擺在水中的漂浮感,以及頭頂露出水面的狀態,豆包模型均捕捉到位。
此外,豆包視頻模型還采用全新設計的擴散模型訓練方法,成功攻克了多鏡頭切換時難以保持一致性的困擾,可 10 秒講述一個起承轉合的故事。
比如,用它生成一段睡美人的故事。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
睡美人躺在床上陷入沉睡,窗外的小鳥嘰嘰喳喳也吵不醒她,這時一位王子俯下身吻了睡美人,試圖喚醒她。
在這個 prompt 中,涉及多個鏡頭的切換,但主體、風格、氛圍和邏輯仍能保持一致性。
審美高級,風格多變
豆包新模型采用深度優化的 Transformer 結構,大幅提升了視頻生成的泛化能力,黑白、3D 動畫、2D 動畫、國畫、厚涂等多種風格,它通通支持。
比如,一只戴著墨鏡頗具喜感的北極熊,蹬著四只爪子在海里暢游,水面上泛起微波,甚至還折射出了北極熊的影子。

(prompt: 戴著墨鏡的北極熊在海里游泳。)
再來個動畫風格的。
身穿灰色時尚衛衣的貓咪,邁著「六親不認」的步伐,走在星光閃耀的 T 臺上。
其中,貓咪眨巴著眼睛,毛發和衣服褶皺處理得也相當逼真,胸前的兩根衣帶也能隨著步伐而擺動。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
(prompt:一只擬人小貓正在 T 臺上走秀。)
呆萌二哈一身潮范兒,頭戴棒球帽,手端咖啡杯,仰起頭,張開嘴,就將其一飲而盡,隨后,P 模型發揮想象力,讓二哈順手將咖啡杯放置在兩側的椅子上,整套動作行云流水,很是流暢自然。

視頻鏈接:https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
(prompt:二哈正在喝咖啡。)
陽光明媚,樹影斑駁,兩只擬人化的企鵝,戴著 Fashion 的墨鏡,舒服地坐在沙灘椅上曬著日光浴,時不時還嘮上兩句磕兒。

(prompt:動畫風格,兩只擬人化的企鵝,戴著墨鏡,坐在沙灘椅上曬太陽。)
兩只卡哇伊的毛絨小怪物,搖頭晃腦地跳著舞,畫風有種迪士尼的感覺。
豆包視頻模型對于細節的把握也是相當到位,比如小怪物晃動身體時,頭上的毛發也會隨之起舞等。

(prompt:兩只毛茸茸的微型可愛怪物,正在跳舞,3D 渲染,Octane,柔和的照明,夢幻般的散景效果,電影感。)
皮卡丘晃動著尾巴,和哆啦 A 夢玩親親,細節層次豐富,光影隨著主體運動而變化,大幅提升畫面視覺審美。

(prompt:皮卡丘和哆啦A夢開心地跳著,然后擁抱在一起。)
不僅如此,我們還可以拿它制作廣告大片。
例如,先通過即夢的文生圖功能,搞出一張香水的商品圖。

然后再通過圖生視頻功能,輸入 prompt:藍色的煙霧緩緩升起。
效果如下:

大家覺得豆包視頻生成模型水平咋樣呢?來評論區聊聊吧。




京公網安備 11011402013531號