字節版Sora終于來了！一口氣兩款視頻模型，帶來的震撼不只一點點

IP屬地中國·北京 編輯：胡穎機器之心Pro 時間：2024-09-25 19:44:54

機器之心報道
作者：楊文
我們用17個prompt，實測了一把字節的兩大視頻生成模型。
字節憋了個大招。
9 月 24 日，字節跳動旗下的火山引擎在深圳辦了一場 AI 創新巡展，一口氣發布了兩款視頻生成大模型，正式宣告進軍 AI 視頻生成。
這兩款模型，一個名為 PixelDance（以下簡稱 P 模型），一個名為 Seaweed（以下簡稱 S 模型），不僅在審美、動幅上提升了一個 level，還破解了多主體互動和一致性難題。
話不多說，先整幾個視頻讓大家感受下：
一位年輕女生微簇眉頭，生氣地戴上一副墨鏡，這時，男主角入畫，緊緊抱住了她。
這段 10 秒的鏡頭中，人物面部表情變化自然，沒有任何虛化崩壞。
再如，一只金毛小狗在草地上追逐泡泡。
（AI 自動配樂）
視頻鏈接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
以及一個 3D 風格的可愛小女孩正在跳舞。
（AI 自動配樂）
視頻鏈接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
看來，字節這次是把攢了許久的絕活兒，一股腦全倒出來了。
目前，新款豆包視頻生成模型正在即夢 AI 內測版小范圍測試，未來將逐步開放給所有用戶。
我們也在第一時間拿到內測資格，接下來，就奉上新鮮出爐的一手實測。
解鎖多動作、多主體
目前，市面上大部分視頻生成模型，只能完成簡單指令或者單一動作。而這次，豆包視頻生成模型一頓升級，不僅可以遵循復雜 prompt，還能捕捉多動作序列和主體互動。
例如，梵高站在自己的畫作前，捂嘴大笑起來，臉上的褶子都清晰可見；隨即又秒變嚴肅，手緩緩落下，捋捋自己的小胡子。
整套動作行云流水，表情自然逼真。
視頻鏈接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
再比如，我們輸入 prompt：兩名宇航員行走在夜晚繁華的街道上。
視頻鏈接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
兩名身穿宇航服的航天員，一前一后漫步在繁華街道上，身后人來人往，兩側的建筑亮起了絢麗的燈光和店招。
眾所周知，AI 最容易犯的毛病之一，就是左右腿不分，或者驚現四條腿。
而在豆包視頻模型中，二人走路姿勢正常，幾乎與真人無異，沒有模糊、扭曲，也沒有出現各種詭異畫面。
我們還輸入了一段形容詞賊多的 prompt：一只蝸牛在雨后的森林地面上緩緩爬行，它身后留下一條閃閃發光的粘液軌跡。蝸牛的觸角謹慎地移動著，它的殼的每一段都有精細的紋理。一個攝像機跟蹤著蝸牛的緩慢旅程。鏡頭非常接近，以至于蝸牛殼和身體上的水滴清晰可見，地面的細節也展現得非常清楚。
豆包模型生成的視頻中，蝸牛柔軟的軀體緩慢向后蠕動，觸角也隨之搖晃。硬硬的殼上有著精細的紋理，上面還沾著細小的水珠。
由于是特寫鏡頭，森林的背景自然虛化，而雨后地面的水洼則清晰可見。
prompt：許多水母在水下游動，它們的身體透明，在深海中發著光。
畫面中出現了大大小小的透明水母，它們輕輕張開傘蓋，再緊緊收縮，觸手也在水中自由擺動。
prompt：寫實，一個小女孩吹生日蠟燭，然后笑了。
鏡頭中，一個頭戴壽星帽的小女孩，張著嘴巴吹蠟燭，臉上露出微笑。同時，身后的親友團，或鼓掌、或拍照。該視頻中的人物不僅多元，動幅也很大。
動作靈活，運鏡酷炫
這次豆包視頻模型還有一大特點 —— 鏡頭多樣。
變焦、環繞、平搖、縮放、目標跟隨等超多鏡頭語言，它都能靈活控制視角，而且視頻細節更豐滿，表情更豐富。
prompt：一個推進鏡頭，沿著樹木成行的郊區住宅街道拍攝，白天，天空晴朗湛藍，色彩飽和，對比度高。
隨著鏡頭緩慢推進，干凈的街道、樹木掩映的成排小別墅映入眼簾，畫面中還展示了優秀的光影效果。
prompt: 北極光在北極天空中舞動，星星閃爍，白雪覆蓋的景觀的延時攝影。
天空舞動的極光，在雪地上映射出相應的顏色。豆包模型生成的這段延時攝影，簡直和紀錄片拍攝的如出一轍。
我們還試了下圖生視頻，上傳圖片后，輸入 prompt：金魚游動，水中冒著氣泡。
別看這個 prompt 簡單，豆包模型的「腦回路」卻復雜得很。不僅完美遵循文字指令，還學會了搖鏡頭。
視頻鏈接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
畫面一開始，水缸中的金魚開始游動，并伴隨著大量氣泡。隨后，鏡頭一拉，現出女孩全身，她在水中緩緩轉過身，發絲和寬松的衣擺在水中的漂浮感，以及頭頂露出水面的狀態，豆包模型均捕捉到位。
此外，豆包視頻模型還采用全新設計的擴散模型訓練方法，成功攻克了多鏡頭切換時難以保持一致性的困擾，可 10 秒講述一個起承轉合的故事。
比如，用它生成一段睡美人的故事。
視頻鏈接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
睡美人躺在床上陷入沉睡，窗外的小鳥嘰嘰喳喳也吵不醒她，這時一位王子俯下身吻了睡美人，試圖喚醒她。
在這個 prompt 中，涉及多個鏡頭的切換，但主體、風格、氛圍和邏輯仍能保持一致性。
審美高級，風格多變
豆包新模型采用深度優化的 Transformer 結構，大幅提升了視頻生成的泛化能力，黑白、3D 動畫、2D 動畫、國畫、厚涂等多種風格，它通通支持。
比如，一只戴著墨鏡頗具喜感的北極熊，蹬著四只爪子在海里暢游，水面上泛起微波，甚至還折射出了北極熊的影子。
（prompt: 戴著墨鏡的北極熊在海里游泳。)
再來個動畫風格的。
身穿灰色時尚衛衣的貓咪，邁著「六親不認」的步伐，走在星光閃耀的 T 臺上。
其中，貓咪眨巴著眼睛，毛發和衣服褶皺處理得也相當逼真，胸前的兩根衣帶也能隨著步伐而擺動。
視頻鏈接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
（prompt：一只擬人小貓正在 T 臺上走秀。）
呆萌二哈一身潮范兒，頭戴棒球帽，手端咖啡杯，仰起頭，張開嘴，就將其一飲而盡，隨后，P 模型發揮想象力，讓二哈順手將咖啡杯放置在兩側的椅子上，整套動作行云流水，很是流暢自然。
視頻鏈接：https://mp.weixin.qq.com/s/FlyrUWhePcWhfhNuh7tplA
（prompt：二哈正在喝咖啡。）
陽光明媚，樹影斑駁，兩只擬人化的企鵝，戴著 Fashion 的墨鏡，舒服地坐在沙灘椅上曬著日光浴，時不時還嘮上兩句磕兒。
（prompt：動畫風格，兩只擬人化的企鵝，戴著墨鏡，坐在沙灘椅上曬太陽。）
兩只卡哇伊的毛絨小怪物，搖頭晃腦地跳著舞，畫風有種迪士尼的感覺。
豆包視頻模型對于細節的把握也是相當到位，比如小怪物晃動身體時，頭上的毛發也會隨之起舞等。
（prompt：兩只毛茸茸的微型可愛怪物，正在跳舞，3D 渲染，Octane，柔和的照明，夢幻般的散景效果，電影感。）
皮卡丘晃動著尾巴，和哆啦 A 夢玩親親，細節層次豐富，光影隨著主體運動而變化，大幅提升畫面視覺審美。
（prompt：皮卡丘和哆啦A夢開心地跳著，然后擁抱在一起。）
不僅如此，我們還可以拿它制作廣告大片。
例如，先通過即夢的文生圖功能，搞出一張香水的商品圖。
然后再通過圖生視頻功能，輸入 prompt：藍色的煙霧緩緩升起。
效果如下：
大家覺得豆包視頻生成模型水平咋樣呢？來評論區聊聊吧。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

全新BJ40燃油上市，煥新價12.69萬元起

哈弗大狗2026款，9.89萬起，潮玩越野新體驗

北京越野BJ40燃油正式上市：12.69萬元起

大六座SUV的終極之選？深藍S09對比問界M8你站誰？

哈弗大狗2026款熱銷，新手指南選哪款配置最劃算

12.69萬入手硬派SUV，北京BJ40能否吸引你

全站最新

追覓連續六年年復合增長率超100% ，俞浩獲評「2025封面人物」

谷歌把AI大模型能力“壓縮”進手機，以后玩游戲全靠“吼”

培訓即上崗！一條閉環服務鏈，打通就業“最后一公里”

摩爾線程張建中：智算集群將做到50萬卡、100萬卡規模

熱門推薦

全新BJ40燃油上市，煥新價12.69萬元起

哈弗大狗2026款，9.89萬起，潮玩越野新體驗

北京越野BJ40燃油正式上市：12.69萬元起

大六座SUV的終極之選？深藍S09對比問界M8你站誰？

哈弗大狗2026款熱銷，新手指南選哪款配置最劃算

12.69萬入手硬派SUV，北京BJ40能否吸引你

BJ40燃油版12.69萬起售，全民越野新選擇

發布會變成用戶主場！長城哈弗與60萬用戶早已雙向奔赴

華為享界S9T旅行車秋末登場，仙蹤綠亮眼吸睛

12.69萬起BJ40燃油版上市，越野平權時代真的來了

內斂起來有點不適應 MANSORY發布新款庫里南改裝案例

特斯拉 Model Y L 突襲，攪亂六座純電 SUV

吉利全新博越造型曝光，原創設計打造高性價比家用SUV

BJ40燃油車12.69萬，開啟越野平權

半價Model 3，十萬級六邊形戰士？零跑B01到底如何