讓林黛玉喝咖啡、馬斯克拍合影！視頻大模型Vidu首發(fā)新功能：鎖定角色形象，任意生成場(chǎng)景

IP屬地中國(guó)·北京 編輯：鄭佳智東西 時(shí)間：2024-09-11 16:08:25

作者 | ZeR0
編輯 | 漠影
9月11日?qǐng)?bào)道，今日，國(guó)內(nèi)知名AI視頻生成模型Vidu在全球首發(fā)一項(xiàng)重要功能——「主體參照」（Subject Consistency）。
用戶上傳任意主體的照片，Vidu就能鎖定這一主體的形象，根據(jù)輸入的描述詞任意切換場(chǎng)景，輸出主體一致的視頻。主體可以是人物、動(dòng)物、商品、動(dòng)畫角色、虛構(gòu)角色。
比如生成林黛玉在現(xiàn)代咖啡館喝咖啡的視頻：
如果使用以前的「角色一致性」功能，可以保持人物面部特征的一致性，但難以保證整體形象的穩(wěn)定，因此生成的畫面是林黛玉穿著現(xiàn)代裝喝咖啡。
而Vidu的「主體參照」功能不僅能保持面部一致，也能保持人物整體形象的高度一致，根據(jù)輸入的文字描述來(lái)靈活輸出目標(biāo)場(chǎng)景，因此可以生成保留原圖形象的林黛玉在現(xiàn)代場(chǎng)景中喝咖啡的視頻，畫面效果自然、真實(shí)，角色造型高度一致。
再比如上傳這張馬斯克的照片：
使用「主體參照」功能后，生成視頻的場(chǎng)景想怎么切換就怎么切換，人物造型都與原圖一致。
Vidu是全球首個(gè)支持這項(xiàng)能力的視頻大模型。「主體參照」功能能夠?qū)崿F(xiàn)對(duì)任意主體的一致性生成，讓視頻生成更加穩(wěn)定、可控。該功能已面向用戶免費(fèi)開放，注冊(cè)即可體驗(yàn)。
體驗(yàn)地址: www.vidu.studio
今年4月底，由生數(shù)科技和清華大學(xué)聯(lián)合研發(fā)的國(guó)內(nèi)首個(gè)純自研原創(chuàng)視頻大模型Vidu面向全球發(fā)布。7月底正式上線后，Vidu憑借在高動(dòng)態(tài)性、精確語(yǔ)義理解、動(dòng)漫風(fēng)格、快速推理等方面的亮點(diǎn)，產(chǎn)品表現(xiàn)位列全球視頻大模型的“第一梯隊(duì)”，并在TikTok等海外社交媒體平臺(tái)上掀起多種AI視頻主題玩法的熱潮，如“跨越時(shí)空的擁抱”等。
生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝說(shuō)，幾乎全球做動(dòng)漫視頻都會(huì)首選Vidu，因?yàn)樗谡w流暢度、人體自然度等方面顯著領(lǐng)先，而且視頻生成速度快，30秒內(nèi)就能生成單個(gè)片段。
打造Vidu的生數(shù)科技成立于2023年3月，目前團(tuán)隊(duì)規(guī)模逾100人，已完成數(shù)億元融資（最新公開為Pre-A輪），投資方包括啟明創(chuàng)投、北京人工智能產(chǎn)業(yè)投資基金、螞蟻集團(tuán)、百度、達(dá)泰資本、BV百度風(fēng)投、哈勃投資、錦秋基金等知名機(jī)構(gòu)。
今日生數(shù)科技還推出了合作伙伴計(jì)劃，邀請(qǐng)廣告、影視、動(dòng)漫、游戲等行業(yè)的機(jī)構(gòu)加入，共同探索新的視頻創(chuàng)作模式，在內(nèi)容共創(chuàng)、技術(shù)支持、市場(chǎng)拓展等方面展開合作。
首批合作伙伴包括開心麻花、貓眼娛樂、巨人網(wǎng)絡(luò)、美克家居、融創(chuàng)文化、河南省非物質(zhì)文化遺產(chǎn)保護(hù)和智慧中心、李可柒畫院等知名企業(yè)與機(jī)構(gòu)。
一、全球首發(fā)主體參照功能，讓指定形象的角色在不同場(chǎng)景中動(dòng)起來(lái)
生數(shù)科技今日推出「主體參照」的功能，是視頻生成領(lǐng)域的一大創(chuàng)新，可基于一張任意主體的圖片，根據(jù)描述詞切換場(chǎng)景，輸出主體一致的視頻。
無(wú)論是人物、動(dòng)物、商品，還是動(dòng)漫角色、虛構(gòu)主體，都能確保其在視頻生成中的一致性和可控性。
進(jìn)行人物角色的“主體參照”，無(wú)論是真實(shí)人物還是虛構(gòu)角色，Vidu都能保持其在不同環(huán)境中、不同鏡頭下的形象連貫一致。
例如，上傳這張人物圖片：
用Vidu可以生成她在不同場(chǎng)景中的視頻。
上傳動(dòng)物圖片，Vidu同樣能實(shí)現(xiàn)其在不同環(huán)境下、大幅運(yùn)動(dòng)狀態(tài)中細(xì)節(jié)特征保持一致。
以商品為主體，商品的外觀和細(xì)節(jié)在不同場(chǎng)景中保持高度一致。
針對(duì)動(dòng)漫角色或者虛構(gòu)的主體等，Vidu同樣可以保持其高度一致。
此前視頻大模型已有的「圖生視頻」、「角色一致性」等能力在生成效果上存在明顯不足，比如圖生視頻基于首幀畫面的連續(xù)生成，無(wú)法直接輸出目標(biāo)場(chǎng)景，限制了視頻內(nèi)容的多樣性和場(chǎng)景的自由度；角色一致性只限于人物面部特征的一致性，難以保證人物整體形象的穩(wěn)定。
相比之下，「主體參照」不局限于人物，面向任意主體，在人物主體下可選擇保持面部一致，也可選擇保持人物整體形象的高度一致，通過輸入文字描述靈活輸出目標(biāo)場(chǎng)景。
二、打破視頻模型的局限性：可控性不足
視頻大模型普遍存在著一個(gè)核心問題——可控性不足，或者叫一致性的不足。
在實(shí)際視頻創(chuàng)作中，視頻內(nèi)容往往圍繞特定的對(duì)象展開，可以是角色或特定物體，這些對(duì)象在視頻中的形象需要保持連續(xù)一致。
現(xiàn)有的視頻模型往往難以實(shí)現(xiàn)這一點(diǎn)，常常是主體在生成過程中容易崩壞。生成視頻連續(xù)性弱，無(wú)法保證每次生成視頻時(shí)主題、場(chǎng)景、風(fēng)格等的一致性，尤其涉及復(fù)雜交互的情況下尤為明顯。
此外，視頻模型的輸出結(jié)果有較大的隨機(jī)性，需要不斷生成嘗試，對(duì)于鏡頭運(yùn)用、光影效果等細(xì)節(jié)的控制也不夠精細(xì)準(zhǔn)確。
所以現(xiàn)階段的視頻模型雖然在畫面表現(xiàn)力、物理規(guī)律、想象力等方面取得一定突破，但可控性不足限制了它們?cè)趧?chuàng)作連貫、完整視頻內(nèi)容方面的應(yīng)用。目前大多數(shù)的AI視頻內(nèi)容還是基于獨(dú)立視頻素材的拼接，情節(jié)的連貫性不足。
為了解決這一問題，業(yè)界曾嘗試采用“先AI生圖、再圖生視頻”的方法，通過AI繪圖工具如Midjourney生成分鏡頭畫面，先在圖片層面保持主體一致，然后再將這些畫面轉(zhuǎn)化為視頻片段并進(jìn)行剪輯合成。
這種方式的問題是，AI繪圖的一致性并不完美，往往需要通過反復(fù)修改和局部重繪來(lái)解決。而且實(shí)際的視頻制作過程中涉及眾多場(chǎng)景和鏡頭，在處理多組分鏡頭的場(chǎng)景時(shí)，生圖的工作量巨大，能占到全流程的一半以上，最終視頻內(nèi)容也會(huì)因?yàn)檫^分依賴分鏡頭畫面而缺乏創(chuàng)造性和靈活性。
Vidu的「主體參照」功能沒有用傳統(tǒng)的分鏡頭畫面生成步驟，而是通過“上傳主體圖+輸入場(chǎng)景描述詞”的方式，直接生成視頻素材，能夠大幅減少了工作量，并打破了分鏡頭畫面對(duì)視頻內(nèi)容的限制。
這使得創(chuàng)作者能夠基于文本描述，發(fā)揮更大的想象力，創(chuàng)造出畫面豐富、靈活多變的視頻內(nèi)容，為視頻創(chuàng)作帶來(lái)更大的自由度和創(chuàng)新空間。
三、加速視頻創(chuàng)作：3張定妝照完成故事短片，6小時(shí)搞定一支視頻廣告
「主體參照」功能通過鎖定角色或物體的形象，一方面讓故事情節(jié)更具連貫性，另一方面讓創(chuàng)作者能夠更自由地探索故事的深度和廣度。
光馳矩陣的發(fā)起人、青年導(dǎo)演李寧正在打造中國(guó)首部AIGC院線電影玄宇。他利用Vidu預(yù)創(chuàng)作了一段男主的視頻片段，其中所有人物畫面僅通過男主近景、中景、遠(yuǎn)景三張定妝照生成。
據(jù)李寧分享，之前AI電影創(chuàng)作采用傳統(tǒng)的文生圖、圖生視頻流程，在分鏡的連貫上很難掌控，人物的整體造型很難保持一致，前期需要耗費(fèi)大量的精力去調(diào)試圖片，同時(shí)畫面還容易產(chǎn)生鏡頭光影失控、圖像模糊甚至變形等一系列問題，且隨著視頻篇幅的增加，這些問題被進(jìn)一步放大。
他發(fā)現(xiàn)Vidu「主體參照」功能讓人物的整體一致性顯著提升，不再需要前期生成大量的圖片，人物運(yùn)動(dòng)和畫面過渡也更加自然，極大助力了長(zhǎng)篇敘事的創(chuàng)作。
中央廣播電視總臺(tái)導(dǎo)演、AIGC藝術(shù)家石宇翔（森海熒光）創(chuàng)作了一條動(dòng)畫短片夏日的禮物。他分享說(shuō)，與基礎(chǔ)的圖生視頻功能相比，「主體參照」功能擺脫了靜態(tài)圖片的束縛，生成的畫面更具感染力和自由度，讓創(chuàng)作的連貫性大大提升，還幫助他節(jié)約7成左右的生圖工作量，讓他能夠?qū)⒏嗑Ψ旁诠适聝?nèi)容的打磨上，而非生成圖片素材上。再疊加上Vidu的復(fù)雜動(dòng)作處理能力和多元素的理解能力，他覺得Vidu就像是一位真人助理“動(dòng)畫師”在輔助創(chuàng)作。
▲動(dòng)畫短片夏日的禮物的視頻片段動(dòng)圖
「主體參照」功能也在商業(yè)廣告片方向展現(xiàn)了強(qiáng)大的潛力。
廣告片的一大關(guān)鍵在于要保證多個(gè)鏡頭、不同場(chǎng)景下品牌物形象的一致性。Vidu「主體參照」功能可以很好的實(shí)現(xiàn)，例如在跑步鞋廣告案例中，僅通過一張商品圖，便完成了所有視頻畫面的生成，無(wú)論是不同角度、背景，還是動(dòng)態(tài)表現(xiàn)，跑步鞋的形象在整個(gè)視頻中都保持了高度一致。
據(jù)生數(shù)科技官方介紹，該視頻僅一位人員花費(fèi)6個(gè)小時(shí)完成，包含前期策劃、素材生成，后期剪輯，其中30段AI視頻素材的生成僅花費(fèi)3個(gè)小時(shí)，整個(gè)流程僅參照一張商品圖。
傳統(tǒng)廣告片制作高度依賴線下實(shí)拍和后期制作，時(shí)間周期長(zhǎng)、成本投入大，但現(xiàn)在通過Vidu能夠極大地節(jié)省廣告制作的成本，整個(gè)產(chǎn)出流程更加高效，品牌方對(duì)新素材的開發(fā)也能更加靈活。
結(jié)語(yǔ)：“主體參照”代表著AI完整敘事的開端
此前Vidu牽手海內(nèi)外頭部藝術(shù)家已產(chǎn)出百部?jī)?yōu)秀作品，全平臺(tái)播放量破千萬(wàn)。面向?qū)I(yè)創(chuàng)作領(lǐng)域，Vidu正與AI藝術(shù)家們合作探索AI賦能下的全新創(chuàng)作模式。
比如與北京電影節(jié)AIGC短片單元最佳影片得主、Ainimate Lab合作打造的動(dòng)畫短片一路向南，畫面質(zhì)量接近傳統(tǒng)動(dòng)畫制作標(biāo)準(zhǔn)，但成本僅為傳統(tǒng)流程的1/40。
Ainimate Lab AI負(fù)責(zé)人陳劉芳說(shuō)，該短片的創(chuàng)作團(tuán)隊(duì)僅由三人構(gòu)成：一名導(dǎo)演、一名故事版藝術(shù)家和一名AIGC技術(shù)應(yīng)用專家。Vidu大大縮短了制作周期并顯著降低了成本，制作周期約為1周。相比之下，傳統(tǒng)流程需要20人，包含導(dǎo)演、美術(shù)、建模、燈光、渲染等不同“工種”，周期在1個(gè)月左右。
在唐家渝看來(lái)，「主體參照」這一全新功能的上線，代表著AI完整敘事的開端，AI視頻創(chuàng)作也將邁向更高效、更靈活的階段。
無(wú)論是制作短視頻、動(dòng)畫作品還是廣告片，在敘事的藝術(shù)中，一個(gè)完整的敘事體系是“主體一致、場(chǎng)景一致、風(fēng)格一致”等要素的有機(jī)結(jié)合。
因此，視頻模型要達(dá)到敘事的完整性，就必須在這些核心元素上實(shí)現(xiàn)全面可控。
“主體參照”功能是Vidu在一致性方面邁出的重要一步。接下來(lái)Vidu會(huì)繼續(xù)探索如何精確控制多主體交互、風(fēng)格統(tǒng)一、多變場(chǎng)景穩(wěn)定切換等復(fù)雜元素，以滿足更高層次的敘事需求。
長(zhǎng)遠(yuǎn)來(lái)看，一旦實(shí)現(xiàn)了全面的可控性，視頻創(chuàng)作行業(yè)將經(jīng)歷一場(chǎng)顛覆性的變革。屆時(shí)，角色、場(chǎng)景、風(fēng)格，甚至鏡頭運(yùn)用、光影效果等元素，都將轉(zhuǎn)化為可靈活調(diào)整的參數(shù)。用戶只需要?jiǎng)觿?dòng)手指、調(diào)調(diào)參，就可以完成一部影像作品的創(chuàng)作，而每一個(gè)作品的背后，也將是用戶基于AI構(gòu)建出的獨(dú)特世界觀和自我表達(dá)。

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

芯片大佬身家逼近兩百億，躋身福州第二富豪

墨跡天氣戰(zhàn)略升級(jí)，CEO金犁：希望氣象服務(wù)的價(jià)值從“提供信息”變成“決策輸出”

全球最大鐵礦石公司更換CEO

突發(fā)公告！董事長(zhǎng)、副總裁、董事、董秘集體辭職

馬斯克對(duì)全球宅男下手了！與“AI女友”戀愛，每月只要30美元

新時(shí)達(dá)被海爾25億控股后管理層調(diào)整：展波任董事長(zhǎng) 紀(jì)德法出局

全站最新

榮耀林林：整個(gè)行業(yè)成本趨勢(shì)非常惡劣，二手機(jī)不排除會(huì)漲價(jià)

白色靈動(dòng)島：消息稱努比亞手機(jī)也將“上島”，可自行選擇開關(guān)

谷歌推遲安卓設(shè)備上谷歌Assistant向Gemini的遷移計(jì)劃

研究發(fā)現(xiàn)：若告知消費(fèi)者廣告是由AI生成的，點(diǎn)擊率會(huì)減少31%

熱門推薦

芯片大佬身家逼近兩百億，躋身福州第二富豪

墨跡天氣戰(zhàn)略升級(jí)，CEO金犁：希望氣象服務(wù)的價(jià)值從“提供信息”變成“決策輸出”

全球最大鐵礦石公司更換CEO

突發(fā)公告！董事長(zhǎng)、副總裁、董事、董秘集體辭職

馬斯克對(duì)全球宅男下手了！與“AI女友”戀愛，每月只要30美元

新時(shí)達(dá)被海爾25億控股后管理層調(diào)整：展波任董事長(zhǎng) 紀(jì)德法出局

業(yè)績(jī)下調(diào)！雷諾任命臨時(shí)CEO

突發(fā)公告！董事長(zhǎng)、副總裁、董事、董秘集體辭職

奧克斯沖刺港股：年?duì)I收298億鄭堅(jiān)江家族色彩濃與董明珠恩怨多年

馬斯克，推出AI伴侶

突發(fā)公告！董事長(zhǎng)、副總裁、董事、董秘集體辭職！

涉性暗示與暴力言論，馬斯克旗下公司新角色引爭(zhēng)議

“70后”鋁業(yè)老兵陳亞仁接任福蓉科技董事長(zhǎng)，能否帶領(lǐng)公司擺脫“增收不增利”困境？

耐普礦機(jī)上半年凈利預(yù)計(jì)大跌超七成，公司董事長(zhǎng)連續(xù)四年年薪穩(wěn)定百萬(wàn)

隱瞞重要事實(shí)！廣東云浮農(nóng)商銀行被罰款30萬(wàn)元，時(shí)任董事長(zhǎng)被警告