
作者 | ZeR0
編輯 | 漠影
9月11日?qǐng)?bào)道,今日,國(guó)內(nèi)知名AI視頻生成模型Vidu在全球首發(fā)一項(xiàng)重要功能——「主體參照」(Subject Consistency)。

用戶上傳任意主體的照片,Vidu就能鎖定這一主體的形象,根據(jù)輸入的描述詞任意切換場(chǎng)景,輸出主體一致的視頻。主體可以是人物、動(dòng)物、商品、動(dòng)畫角色、虛構(gòu)角色。
比如生成林黛玉在現(xiàn)代咖啡館喝咖啡的視頻:

如果使用以前的「角色一致性」功能,可以保持人物面部特征的一致性,但難以保證整體形象的穩(wěn)定,因此生成的畫面是林黛玉穿著現(xiàn)代裝喝咖啡。

而Vidu的「主體參照」功能不僅能保持面部一致,也能保持人物整體形象的高度一致,根據(jù)輸入的文字描述來(lái)靈活輸出目標(biāo)場(chǎng)景,因此可以生成保留原圖形象的林黛玉在現(xiàn)代場(chǎng)景中喝咖啡的視頻,畫面效果自然、真實(shí),角色造型高度一致。

再比如上傳這張馬斯克的照片:

使用「主體參照」功能后,生成視頻的場(chǎng)景想怎么切換就怎么切換,人物造型都與原圖一致。



Vidu是全球首個(gè)支持這項(xiàng)能力的視頻大模型。「主體參照」功能能夠?qū)崿F(xiàn)對(duì)任意主體的一致性生成,讓視頻生成更加穩(wěn)定、可控。該功能已面向用戶免費(fèi)開放,注冊(cè)即可體驗(yàn)。
體驗(yàn)地址: www.vidu.studio
今年4月底,由生數(shù)科技和清華大學(xué)聯(lián)合研發(fā)的國(guó)內(nèi)首個(gè)純自研原創(chuàng)視頻大模型Vidu面向全球發(fā)布。7月底正式上線后,Vidu憑借在高動(dòng)態(tài)性、精確語(yǔ)義理解、動(dòng)漫風(fēng)格、快速推理等方面的亮點(diǎn),產(chǎn)品表現(xiàn)位列全球視頻大模型的“第一梯隊(duì)”,并在TikTok等海外社交媒體平臺(tái)上掀起多種AI視頻主題玩法的熱潮,如“跨越時(shí)空的擁抱”等。
生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝說(shuō),幾乎全球做動(dòng)漫視頻都會(huì)首選Vidu,因?yàn)樗谡w流暢度、人體自然度等方面顯著領(lǐng)先,而且視頻生成速度快,30秒內(nèi)就能生成單個(gè)片段。

打造Vidu的生數(shù)科技成立于2023年3月,目前團(tuán)隊(duì)規(guī)模逾100人,已完成數(shù)億元融資(最新公開為Pre-A輪),投資方包括啟明創(chuàng)投、北京人工智能產(chǎn)業(yè)投資基金、螞蟻集團(tuán)、百度、達(dá)泰資本、BV百度風(fēng)投、哈勃投資、錦秋基金等知名機(jī)構(gòu)。
今日生數(shù)科技還推出了合作伙伴計(jì)劃,邀請(qǐng)廣告、影視、動(dòng)漫、游戲等行業(yè)的機(jī)構(gòu)加入,共同探索新的視頻創(chuàng)作模式,在內(nèi)容共創(chuàng)、技術(shù)支持、市場(chǎng)拓展等方面展開合作。
首批合作伙伴包括開心麻花、貓眼娛樂、巨人網(wǎng)絡(luò)、美克家居、融創(chuàng)文化、河南省非物質(zhì)文化遺產(chǎn)保護(hù)和智慧中心、李可柒畫院等知名企業(yè)與機(jī)構(gòu)。

一、全球首發(fā)主體參照功能,讓指定形象的角色在不同場(chǎng)景中動(dòng)起來(lái)
生數(shù)科技今日推出「主體參照」的功能,是視頻生成領(lǐng)域的一大創(chuàng)新,可基于一張任意主體的圖片,根據(jù)描述詞切換場(chǎng)景,輸出主體一致的視頻。
無(wú)論是人物、動(dòng)物、商品,還是動(dòng)漫角色、虛構(gòu)主體,都能確保其在視頻生成中的一致性和可控性。
進(jìn)行人物角色的“主體參照”,無(wú)論是真實(shí)人物還是虛構(gòu)角色,Vidu都能保持其在不同環(huán)境中、不同鏡頭下的形象連貫一致。
例如,上傳這張人物圖片:

用Vidu可以生成她在不同場(chǎng)景中的視頻。

上傳動(dòng)物圖片,Vidu同樣能實(shí)現(xiàn)其在不同環(huán)境下、大幅運(yùn)動(dòng)狀態(tài)中細(xì)節(jié)特征保持一致。


以商品為主體,商品的外觀和細(xì)節(jié)在不同場(chǎng)景中保持高度一致。

針對(duì)動(dòng)漫角色或者虛構(gòu)的主體等,Vidu同樣可以保持其高度一致。


此前視頻大模型已有的「圖生視頻」、「角色一致性」等能力在生成效果上存在明顯不足,比如圖生視頻基于首幀畫面的連續(xù)生成,無(wú)法直接輸出目標(biāo)場(chǎng)景,限制了視頻內(nèi)容的多樣性和場(chǎng)景的自由度;角色一致性只限于人物面部特征的一致性,難以保證人物整體形象的穩(wěn)定。
相比之下,「主體參照」不局限于人物,面向任意主體,在人物主體下可選擇保持面部一致,也可選擇保持人物整體形象的高度一致,通過輸入文字描述靈活輸出目標(biāo)場(chǎng)景。
二、打破視頻模型的局限性:可控性不足
視頻大模型普遍存在著一個(gè)核心問題——可控性不足,或者叫一致性的不足。
在實(shí)際視頻創(chuàng)作中,視頻內(nèi)容往往圍繞特定的對(duì)象展開,可以是角色或特定物體,這些對(duì)象在視頻中的形象需要保持連續(xù)一致。
現(xiàn)有的視頻模型往往難以實(shí)現(xiàn)這一點(diǎn),常常是主體在生成過程中容易崩壞。生成視頻連續(xù)性弱,無(wú)法保證每次生成視頻時(shí)主題、場(chǎng)景、風(fēng)格等的一致性,尤其涉及復(fù)雜交互的情況下尤為明顯。
此外,視頻模型的輸出結(jié)果有較大的隨機(jī)性,需要不斷生成嘗試,對(duì)于鏡頭運(yùn)用、光影效果等細(xì)節(jié)的控制也不夠精細(xì)準(zhǔn)確。
所以現(xiàn)階段的視頻模型雖然在畫面表現(xiàn)力、物理規(guī)律、想象力等方面取得一定突破,但可控性不足限制了它們?cè)趧?chuàng)作連貫、完整視頻內(nèi)容方面的應(yīng)用。目前大多數(shù)的AI視頻內(nèi)容還是基于獨(dú)立視頻素材的拼接,情節(jié)的連貫性不足。
為了解決這一問題,業(yè)界曾嘗試采用“先AI生圖、再圖生視頻”的方法,通過AI繪圖工具如Midjourney生成分鏡頭畫面,先在圖片層面保持主體一致,然后再將這些畫面轉(zhuǎn)化為視頻片段并進(jìn)行剪輯合成。
這種方式的問題是,AI繪圖的一致性并不完美,往往需要通過反復(fù)修改和局部重繪來(lái)解決。而且實(shí)際的視頻制作過程中涉及眾多場(chǎng)景和鏡頭,在處理多組分鏡頭的場(chǎng)景時(shí),生圖的工作量巨大,能占到全流程的一半以上,最終視頻內(nèi)容也會(huì)因?yàn)檫^分依賴分鏡頭畫面而缺乏創(chuàng)造性和靈活性。

Vidu的「主體參照」功能沒有用傳統(tǒng)的分鏡頭畫面生成步驟,而是通過“上傳主體圖+輸入場(chǎng)景描述詞”的方式,直接生成視頻素材,能夠大幅減少了工作量,并打破了分鏡頭畫面對(duì)視頻內(nèi)容的限制。
這使得創(chuàng)作者能夠基于文本描述,發(fā)揮更大的想象力,創(chuàng)造出畫面豐富、靈活多變的視頻內(nèi)容,為視頻創(chuàng)作帶來(lái)更大的自由度和創(chuàng)新空間。
三、加速視頻創(chuàng)作:3張定妝照完成故事短片,6小時(shí)搞定一支視頻廣告
「主體參照」功能通過鎖定角色或物體的形象,一方面讓故事情節(jié)更具連貫性,另一方面讓創(chuàng)作者能夠更自由地探索故事的深度和廣度。
光馳矩陣的發(fā)起人、青年導(dǎo)演李寧正在打造中國(guó)首部AIGC院線電影玄宇。他利用Vidu預(yù)創(chuàng)作了一段男主的視頻片段,其中所有人物畫面僅通過男主近景、中景、遠(yuǎn)景三張定妝照生成。
據(jù)李寧分享,之前AI電影創(chuàng)作采用傳統(tǒng)的文生圖、圖生視頻流程,在分鏡的連貫上很難掌控,人物的整體造型很難保持一致,前期需要耗費(fèi)大量的精力去調(diào)試圖片,同時(shí)畫面還容易產(chǎn)生鏡頭光影失控、圖像模糊甚至變形等一系列問題,且隨著視頻篇幅的增加,這些問題被進(jìn)一步放大。
他發(fā)現(xiàn)Vidu「主體參照」功能讓人物的整體一致性顯著提升,不再需要前期生成大量的圖片,人物運(yùn)動(dòng)和畫面過渡也更加自然,極大助力了長(zhǎng)篇敘事的創(chuàng)作。
中央廣播電視總臺(tái)導(dǎo)演、AIGC藝術(shù)家石宇翔(森海熒光)創(chuàng)作了一條動(dòng)畫短片夏日的禮物。他分享說(shuō),與基礎(chǔ)的圖生視頻功能相比,「主體參照」功能擺脫了靜態(tài)圖片的束縛,生成的畫面更具感染力和自由度,讓創(chuàng)作的連貫性大大提升,還幫助他節(jié)約7成左右的生圖工作量,讓他能夠?qū)⒏嗑Ψ旁诠适聝?nèi)容的打磨上,而非生成圖片素材上。再疊加上Vidu的復(fù)雜動(dòng)作處理能力和多元素的理解能力,他覺得Vidu就像是一位真人助理“動(dòng)畫師”在輔助創(chuàng)作。

▲動(dòng)畫短片夏日的禮物的視頻片段動(dòng)圖
「主體參照」功能也在商業(yè)廣告片方向展現(xiàn)了強(qiáng)大的潛力。
廣告片的一大關(guān)鍵在于要保證多個(gè)鏡頭、不同場(chǎng)景下品牌物形象的一致性。Vidu「主體參照」功能可以很好的實(shí)現(xiàn),例如在跑步鞋廣告案例中,僅通過一張商品圖,便完成了所有視頻畫面的生成,無(wú)論是不同角度、背景,還是動(dòng)態(tài)表現(xiàn),跑步鞋的形象在整個(gè)視頻中都保持了高度一致。

據(jù)生數(shù)科技官方介紹,該視頻僅一位人員花費(fèi)6個(gè)小時(shí)完成,包含前期策劃、素材生成,后期剪輯,其中30段AI視頻素材的生成僅花費(fèi)3個(gè)小時(shí),整個(gè)流程僅參照一張商品圖。
傳統(tǒng)廣告片制作高度依賴線下實(shí)拍和后期制作,時(shí)間周期長(zhǎng)、成本投入大,但現(xiàn)在通過Vidu能夠極大地節(jié)省廣告制作的成本,整個(gè)產(chǎn)出流程更加高效,品牌方對(duì)新素材的開發(fā)也能更加靈活。
結(jié)語(yǔ):“主體參照”代表著AI完整敘事的開端
此前Vidu牽手海內(nèi)外頭部藝術(shù)家已產(chǎn)出百部?jī)?yōu)秀作品,全平臺(tái)播放量破千萬(wàn)。面向?qū)I(yè)創(chuàng)作領(lǐng)域,Vidu正與AI藝術(shù)家們合作探索AI賦能下的全新創(chuàng)作模式。
比如與北京電影節(jié)AIGC短片單元最佳影片得主、Ainimate Lab合作打造的動(dòng)畫短片一路向南,畫面質(zhì)量接近傳統(tǒng)動(dòng)畫制作標(biāo)準(zhǔn),但成本僅為傳統(tǒng)流程的1/40。
Ainimate Lab AI負(fù)責(zé)人陳劉芳說(shuō),該短片的創(chuàng)作團(tuán)隊(duì)僅由三人構(gòu)成:一名導(dǎo)演、一名故事版藝術(shù)家和一名AIGC技術(shù)應(yīng)用專家。Vidu大大縮短了制作周期并顯著降低了成本,制作周期約為1周。相比之下,傳統(tǒng)流程需要20人,包含導(dǎo)演、美術(shù)、建模、燈光、渲染等不同“工種”,周期在1個(gè)月左右。
在唐家渝看來(lái),「主體參照」這一全新功能的上線,代表著AI完整敘事的開端,AI視頻創(chuàng)作也將邁向更高效、更靈活的階段。
無(wú)論是制作短視頻、動(dòng)畫作品還是廣告片,在敘事的藝術(shù)中,一個(gè)完整的敘事體系是“主體一致、場(chǎng)景一致、風(fēng)格一致”等要素的有機(jī)結(jié)合。
因此,視頻模型要達(dá)到敘事的完整性,就必須在這些核心元素上實(shí)現(xiàn)全面可控。
“主體參照”功能是Vidu在一致性方面邁出的重要一步。接下來(lái)Vidu會(huì)繼續(xù)探索如何精確控制多主體交互、風(fēng)格統(tǒng)一、多變場(chǎng)景穩(wěn)定切換等復(fù)雜元素,以滿足更高層次的敘事需求。
長(zhǎng)遠(yuǎn)來(lái)看,一旦實(shí)現(xiàn)了全面的可控性,視頻創(chuàng)作行業(yè)將經(jīng)歷一場(chǎng)顛覆性的變革。屆時(shí),角色、場(chǎng)景、風(fēng)格,甚至鏡頭運(yùn)用、光影效果等元素,都將轉(zhuǎn)化為可靈活調(diào)整的參數(shù)。用戶只需要?jiǎng)觿?dòng)手指、調(diào)調(diào)參,就可以完成一部影像作品的創(chuàng)作,而每一個(gè)作品的背后,也將是用戶基于AI構(gòu)建出的獨(dú)特世界觀和自我表達(dá)。





京公網(wǎng)安備 11011402013531號(hào)