
2024年尾聲,文生影像領域硝煙四起。
12月初,OpenAI終于端上了Sora這盤硬菜,最高1080P的分辨率、20秒的時長以及故事板、Remix等功能,無疑再次攪動已經進入白熱化競爭的文生影像江湖。但很快,競爭格局再次被刷新——谷歌發布了文生視頻模型Veo 2,它在指令遵循、鏡頭控制以及畫面質量上都表現驚艷。國內玩家也不遑多讓。背靠字節跳動強大短視頻基因的即夢AI,在上線后的四個月里經歷了數次迭代,終于解決了AI生成影像的中文嵌入痛點。
在影像敘事大行其道的當下,文生圖/視頻無疑成為了AI應用的必爭之地,而這場競逐還遠未及終局。不符合物理原則的AI生成視頻,在讓人發笑之余,折射的是目前文生圖像領域,生成質量不高、反應速度慢、操作復雜以及偽影頻現等諸多痛點。
對比國內外其他文生影像主要玩家,即夢AI入局相對較晚,但已足夠讓行業不容輕視,也讓用戶對其抱持著很高的期待。事實上,即夢AI自己也野心不小,喊出了“想象力相機”的口號。
那么,自2024年5月上線以來的即夢AI,到底有哪些看家本領,與包括Sora等在內的海內外同類應用相比,功力幾何?通過即夢AI,或者可以一覽字節跳動在AI應用元年于文生影像領域的成績單。

一句話改圖:簡單、精準
即夢AI在11月上線了“智能參考”功能,號稱用戶可以通過一句話實現零門檻改圖,并精準收獲預期效果。
比如用時下流行的文物動作改造進行嘗試。選取一張兵馬俑的照片,點擊使用“智能參考”功能,輸入簡單的promt:兵馬俑喝奶茶,僅幾秒鐘,原圖就生成為一張左手握奶茶的兵馬俑圖片,且可以看到,圖片的其余部位都基本保持了原圖狀態,沒有變形,全程也不需要額外再做涂抹描邊等步驟。

prompt:兵馬俑喝奶茶

再嘗試一下更復雜的改圖效果。去掉原圖中女孩面前的玻璃,從效果圖中可以看到,即夢AI對prompt的理解還是很精準到位的,玻璃被完整消除了,而原圖其他細節基本上都實現了保留。

prompt:去除圖片的碎玻璃

在多次測試中,可以看到,即夢AI的圖像生成模型,能夠辨別表情、情緒、風格以及成語等詞匯,并且可以實現指哪打哪的精準任務執行。
從效果來看,目前即夢AI的改圖功能可實現改風格、改動作、改表情、2D變3D、換裝/換人、增減主體以及改場景等多種效果。對比同類模型而言,覆蓋相對全面。
簡單、精準且效果多元,這對C端大眾用戶來說,可以滿足社交媒體使用過程中大部分的制圖需要,比如最近很火的經典卡通頭像擬人化制作,還有朋友圈爆火的AI雪景。對創作者而言,這種簡單、精準的圖像生成實現,無疑可以大幅度降低使用成本,提高創作的效率。
這個月初,即夢AI上線了“文字海報”功能,輸入一句話即可生成中/英文海報,后續還增加了涂抹修改錯字的功能。
在實測中,即夢AI除了實現簡單快速和排版設計這些比較基礎的要求,更亮眼的表現,無疑是AI圖像生成中中文難以生成的問題,同平臺迅速涂抹修改錯別字也是當前國內外文生圖模型還難以實現的。另外,即夢的模型還可以根據提示詞,自動完善文案并補充畫面細節。在控制圖片中的文字生成這方面,即夢是行業首創。
有了這個功能,B端在電商大促、新品宣傳、年末活動以及視頻封面等場景的需求基本上都可以滿足。尤其是不會做海報但是有需求的小商家或者營銷個體、半專業設計師、文字媒體工作者,即夢都會是不錯的輔助工具。

視頻生成:復雜,多元
視頻生成是目前是AI應用領域當之無愧的競爭熱土,也是各應用能力的重要試金石。即夢AI在11月中旬上線了S&P雙模型。根據介紹,采用DiT架構,S2.0 pro 模型在首幀一致性和畫質上有不俗表現,而P2.0 pro模型則有較高的“提示詞遵循能力”,即輸入復雜提示詞,如鏡頭切換、人物連續動作、情緒演繹、運鏡控制等,模型也能理解并精準生成視頻。
對指令理解、鏡頭切換以及相機控制的最大程度實現,在目前視頻生成領域的幾個主要模型已經“卷”出新高度。姍姍來遲的OpenAI Sora,就有可以讓用戶自由添加分鏡的故事板功能;而被公認已經全面超越Sora的谷歌Veo 2,在復雜指令理解以及相機控制方面更是做到了極致,景深等攝影專業術語都可以直接輸入,并且被精準理解實現理想的效果輸出。
而即夢的P2.0pro模型,也在這些領域進行了發力。在鏡頭切換方面,輸入一張圖和prompt,就可以生成多鏡頭視頻,實現全景、中景、特寫等鏡頭切換,并保持了視頻與原圖總體風格、場景以及人物的高度一致。在下面的實測中,可以看到視頻與原圖畫面基本保持了一致,生成的面部表情以及肢體細節等也都較為精準、生動。

prompt:視頻呈現轉化為動畫風格,突出女孩臉部表情,表現出購物后的喜悅心情
從人物動作來看,目前P2.0pro模型生成可以實現單主體、多主體,連續、復雜的一整套動作。比如,在實測中,輸入下面這張單人靜態圖,以及prompt:一個男人走進畫面,女人轉頭看著他,他們互相擁抱,背景周圍的人在走動。生成效果中,除了大多數模型目前都存在的人物眼神無法聚焦的問題外,人物動作還是相當連貫的,并且互動效果也符合現實物理原則,四肢等也沒有出現錯位和變形等問題。

在運鏡控制方面,除了簡單的“推、拉、搖、移”外,即夢P2.0 pro模型還能實現變焦、主體環繞、升降、旋轉、晃動、魚眼鏡頭等多種運鏡,其中“變焦”表現尤其突出。在以下這張原圖+prompt(鏡頭環繞著戴墨鏡的女人拍攝,從她側面移動到正面,最后聚焦于女人的墨鏡特寫)的實測中,除了鏡頭還有點晃之外,prompt的描述都得到了較大程度的實現。

另外,除了對鏡頭語言以及動作語言的精準理解,即夢的P2.0pro模型,對情緒的演繹也堪稱精準。它不僅可以演繹哭、笑、悲傷、生氣等單一的簡單情緒,還可以理解并生成“哭中帶笑”等這類復雜情緒。

視頻生成的場景就很多,比如最近很火的讓文物動起來,用即夢的S/P2.0Pro模型,只要輸入prompt詞就可以簡單快速完成,不僅是雕塑文物,古畫里面的人物、動物都可以。
即夢AI在B端場景也有很大的想象空間,商品展示類的廣告短片、紅人口播短視頻等,目前的模型能力都可以基本實現。目前即夢還上線了“對口型”功能,一張圖片、一段文字或者一段音頻,就能生成對口型視頻,不需要額外再寫prompt。在實測中,除了口型對上之外,生成的視頻中,人物的表情、神態也都基本可以還原音頻的情緒表現;另外服飾、配飾乃至頭發的細節都能達到動態逼真。


打造想象力相機,字節的AI野心
總體而言,上線相對較晚的即夢AI,還是跟上了同類文生影像產品的節奏,在清晰度、準確度以及細節質量等基本的評價維度上,都給出了較為驚艷的表現;同時在視頻生成方面的情緒理解以及運鏡控制等更復雜任務的完成上,也在不斷迭代,超海內外強勢產品追趕。尤其是在生圖方面,即夢也解決了插入中文這一痛點。
另外,相比Sora等海外產品,即夢AI目前的訂閱門檻還是相對親民的,高頻使用的用戶還可以通過每天登陸領取積分兌換使用次數。這對于大眾用戶來說,是另一種維度的低使用門檻。
目前,文生影像領域的產品形態和功能都還在比較早期的階段,競爭格局遠未定型。表現在用戶側,不少用戶都是同時使用多個AI應用工具以完成一個任務,一方面是,目前單個工具還無法給出最優的成果;另一方面是,各個工具目前都有各自的長板,用戶將不同工具的生成效果綜合,可以逼近最理想的效果。因此,隨著字節跳動在生成式AI領域投入的進一步加大,即夢AI未來必然還會有更大的想象空間。
相比于一部分同類產品,背靠字節跳動,即夢AI顯然有著更加優越的資源稟賦。字節跳動在基礎模型方面的投入,可以為即夢AI提供底層架構,另外背靠大廠的算力資源,也是當前環境下應用產品的比較優勢。
另一方面,抖音也需要源源不斷的內容,即夢還可以和剪映結合,引入AI生產力工具后將內容反哺給抖音,可以說,比起其他同類模型,這是即夢之于獨特的生態站位優勢。
在12月18日的即夢發布會中,今年2月辭去抖音集團CEO、轉任剪映負責人的張楠稱,視覺模型將極大改變我們觀看視頻的方式——實際上,用戶將不再是被動觀看,而是可以在任何時刻介入、參與和影響劇情走向或者觀看不同的故事分支。不僅如此,技術還可以使生物腦電波可視化,意味著我們可以探索潛意識的創作之路。
“科學家估算過,人的一生可以容納 10 億個想法。”張楠說,如果抖音是記錄“真實世界的相機”,即夢就是一款“想象力的相機”。在字節跳動的AI野心之下,這款“想象力的相機”無疑將加速迭代。
剪映業務負責人 張楠





京公網安備 11011402013531號