機器之心報道
編輯:楊文
打開多模態自由創作的大門。
谷歌 Nano Banana 掀起的全球創作狂歡尚未消退之際,字節又玩了把大的。
近日,字節跳動開始內測最新的豆包?圖像創作模型 Seedream 4.0。與此前版本相比,Seedream 4.0 首次支持多模態生圖,同一模型可以實現文生圖、圖像編輯、組圖生成,并在核心能力上迎來了顯著提升:
主體一致性增強:無論是文本驅動還是圖像驅動,都能穩健保持主體特征,避免「失真」與「錯位」。
![]()
提示詞:將平視視角改為俯視視角,將近景改為中景,并把畫面比例改為 16:9。
多圖靈活創作:支持文本、圖像的多維組合輸入,輕松實現參考生成、融合生成與編輯。
![]()
提示詞:根據參考圖中兩個男生的形象,生成一組動作片分鏡,原比例。
超高清、超高速直出:最高支持 4K 分辨率輸出,且推理效率大幅優化,2K 大分辨率圖像生成用時僅需數秒。
![]()
從更長遠的技術發展視角來看,多模態自由創作正成為大勢所趨。無論是文本驅動、圖像驅動,還是多圖融合,用戶都期待能以更自然、更隨心的方式與 AI 協作。
Seedream 4.0 內測一出,網友們就把它玩出了花。
比如基于多圖融合能力,上傳兩張角色照片,再加上火柴人自拍動作,即可實現同框合影。
![]()
提示詞:將圖1男子和圖2女子合進一張畫面,參考圖3姿勢。
或者動動嘴就能給模特一鍵換時尚穿搭:
![]()
提示詞:給圖 1 模特穿上圖 2 的穿搭。
我們也在第一時間拿到了內測資格。據機器之心了解,字節 Seedream 4.0 模型將很快在豆包、即夢全量上線,并通過火山引擎開放給企業客戶
接下來還是老規矩,我們親自上手體驗一番,看看字節 Seedream 4.0 成色幾何。
一手實測:多模態無縫融合釋放創作自由
如今,圖像生成已經不再是從文本到畫面的單向創作。用戶需要的也不僅僅是高質量的圖像輸出,更是一個能夠在多模態輸入間靈活切換、在生成與編輯之間無縫銜接的完整創作工具。
無論是單圖參考、多圖組合,還是基于文本與圖像的自由融合,Seedream 4.0 都能在同一模型下完成從生成到編輯的一站式創作,讓用戶在效率與可控性上同時獲得新的自由度。
多圖輸入、輸出
先來試試它的多圖融合能力。
我們上傳了馬斯克、奧特曼這對勁敵的半身照,以及一張手繪自拍動作參考圖,并在提示詞中指定將兩位人物合并到同一畫面,完成一張「世紀大和解」的自拍照。
模型不僅準確捕捉了參考姿勢,還能在保證兩位主體身份特征的同時,實現自然的構圖與表情協調。不同來源的圖像在風格與細節上被平滑統一,沒有出現常見的「換臉違和感」或「姿勢錯亂」問題。
![]()
提示詞:將圖 1 男子和圖 2 男子合進一張畫面,參考圖 3 姿勢
除了多圖輸入,Seedream 4.0 還支持多圖輸出。比如上傳一張情侶正面照,讓它生成一組愛情片分鏡。
Seedream 4.0 能夠在嚴格遵循人物外觀一致性的基礎上,設計出超市購物、雨中撐傘等浪漫場景。這種輸出方式避免了傳統生成模型常見的形象漂移問題,讓用戶得到一整套故事化的圖像。
![]()
提示詞:根據參考圖男生和女生的形象,生成一組愛情片分鏡,原比例,不要改變男生和女生的相貌,不要改變他們的發型、衣服。
深度意圖理解
在深度意圖理解方面,Seedream 4.0 也展現出強大的場景重建能力。
我們上傳了一張室內設計的線稿圖,并要求將其改造成真實場景。模型實現了細節上的高度還原,從沙發、桌子、臺燈等主要家具,到畫框、綠植等小型裝飾,都能做到幾乎 1:1 的精準復刻。
這意味著,Seedream 4.0 并非只是填色或補全,而是真正理解了用戶的意圖,并在此基礎上進行合理、完整的空間構建,生成結果真實,細節豐富,整體觀感接近專業設計渲染效果。
![]()
提示詞:把這個線稿改成真實的場景
Seedream 4.0 還能理解抽象符號與圖像元素之間的關系。比如在一張瘦弱小貓的圖片旁畫上外擴箭頭,它就能推理出我們的意圖是讓小貓變胖,最終生成畫面中小貓體型明顯更加圓潤。
相比于只能依賴文字描述的模型,這種圖文結合的意圖解析使創作過程更加直觀高效。
![]()
提示詞:根據箭頭方向改變小貓體型。
此外,上傳一張人物攝影照片,它還能嚴格遵循文本要求進行逆向工程,描繪其創作過程。
![]()
提示詞:展示布景搭建的場景,模特坐著滑手機,身后有一位女性正在幫她整理頭發,背景里有一名男子站在梯子上掛幕布,幕布后露出攝影棚的環境。
高度特征保持
以往,圖像編輯模型在細節還原和物體特性表現上,常常出現失真或不自然的現象,而此次 Seedream 4.0 提供了更高的穩定性與精準度。
比如將參考圖轉化為手辦測試中,Seedream 4.0 不僅遵循了提示詞的多重約束,還能讓角色形象與參考圖保持高度一致,盒子、電腦屏幕、底座等元素布局合理,模型生成的 PVC 透明度與光澤感也更接近實物效果。
![]()
提示詞:把參考圖片轉化為一個角色手辦,在手辦背后放置一個印有該角色形象的盒子,并在旁邊的電腦屏幕上顯示 Blender 建模過程,盒子前方放一個圓形塑料底座,角色手辦立在上面,讓 PVC 材質看起來清晰透亮,場景盡量設置在室內。
Seedream 4.0 這一功能在商業化場景中大有作為。
我們上傳了兩只小狗飛奔的圖片和一張白色帆布包的產品照,并輸入提示詞「圖 2 帆布包上印著圖 1 形象」。
模型在處理跨圖像的組合任務時,能精準捕捉主體特征、圖像比例,并將其協調融入目標物體之中,避免了貼圖感。
![]()
提示詞:圖 2 帆布包上印著圖 1 形象
我們還可以制作表情包,Seedream 4.0 忠實還原了仕女的服飾與造型特色,并充分發揮想象力,生成扮鬼臉、打哈欠、比耶、憤怒等多款生動表情,角色形象和畫風均沒有走樣。
![]()
提示詞:參考圖片形象生成一組搞怪表情包
精準指令編輯
對于增刪改替常規玩法,Seedream 4.0 也有了較大進步。
比如讓男生戴上耳機和墨鏡,并手捧一束花,模型自然完成了三項元素的添加。耳機、墨鏡與花束都與人物形象高度契合,整體效果真實自然。
![]()
提示詞:讓男生戴上頭戴式耳機,戴著墨鏡,手捧一束花
或者刪除背景中雜亂的路人,模型不僅把這些無關元素刪除得干凈利落,還能自然填充背景,畫面銜接流暢,完全看不出 P 圖痕跡。
![]()
提示詞:刪除背景中的路人
即使是更為復雜的任務,如更換人物發型,Seedream 4.0 也能在保證面部特征和氣質一致性的基礎上,流暢轉換發型,發絲細節豐富,還避免了因局部修改導致的整體失真。
![]()
提示詞:將參考圖中的女生發型分別改為大波浪卷、高馬尾、丸子頭
為了讓大家能玩明白,官方還總結出了一套提示詞指南。
使用清晰明確的指令通常能實現更好的編輯效果,常見公式為「變化動作 + 變化對象 + 變化特征」,比如將騎士的頭盔變為金色。這里,變化動作指的是需要執行的操作,如移除、添加、替換、參考等;變化對象包括主體、背景、光影、色彩等;變化特征則是希望變化后呈現的效果。當需要將多張圖片合成一張時,可以通過「一系列」、「組圖」或「幫我生成幾張圖」等提示詞觸發組圖功能,最多支持生成 9 張圖片。如果需要保持特定角色形象、產品信息或風格一致性,可以上傳圖像作為參考。使用精確的風格詞或直接輸入圖像作為風格參考,有助于獲得更理想的效果。上傳多張參考圖時,明確指出不同圖片需參考或編輯的不同元素,可以提高生成結果的精準度。例如:將圖 1 中的角色放入圖 2 的背景中,參考圖 3 的風格進行生成。
與 Nano Banana 同臺競技
為了更直觀地展現字節 Seedream 4.0 和谷歌 Nano Banana 這兩款模型的差異與優勢,我們將其進行了多項對比測試。
Round1:生成 OOTD
![]()
圖 1 為原圖;圖 2 為 Seedream 4.0;圖 3 為 Nano Banana. 提示詞:請根據上傳的參考照片,生成一張俯拍平鋪的 OOTD 穿搭圖,服裝、配飾、鞋子需與上傳的參考照片 1:1 復刻。
從結果來看,Seedream 4.0 與 Nano Banana 的整體表現都接近預期,能夠較好地還原出參考造型的整體搭配與構圖。
不過在材質精準性與細節控制上仍有優化空間,Seedream 4.0 生成的毛線馬甲材質對不上號,Nano Banana 則是紋理不對,同時在生成的包袋上額外出現了一條肩帶。
Round2: 一鍵換衣
我們又上傳了一張模特照和一張 OOTD 俯拍平鋪圖,并輸入提示詞:Change the outfit with the uploaded one.
![]()
圖 1、圖 2 為原圖;圖 3 為 Seedream 4.0 生成效果;圖 4 為 Nano Banana 生成效果。提示詞:Change the outfit with the uploaded one.
這兩款模型都能夠嚴格遵循提示詞要求,將參考穿搭準確替換到模特身上,整體效果自然,服裝細節和輪廓基本與參考圖一致。
Round3: 漫畫分鏡
漫畫分鏡的生成是對模型理解力與畫面統籌能力的綜合考驗。
我們以一張吉卜力風格的女孩形象為參考,要求模型延展出兩組治愈系場景。
![]()
圖 1 為原圖;圖 2、圖 3 為 Seedream 4.0 生成效果;圖 4、圖 5 為 Nano Banana 生成效果。提示詞:參考這張圖的畫風和人物形象,生成一組治愈系漫畫:1. 騎著自行車在山間小路上行駛;2. 穿著透明雨衣,雨衣表面有水珠,右手提著裝滿鮮紅番茄的柳條籃子,行走在泥濘鄉間小路,小路兩側是繁茂番茄田(紅番茄掛藤,綠葉帶雨),田邊點綴白 / 粉 / 黃 / 藍野花,細雨紛飛。
兩者在復雜分鏡生成方面都已具備成熟能力,Nano Banana 一如既往穩定,Seedream 4.0 則在畫面色彩搭配上更加鮮明,整體清晰度也更高。
Round4: 修復老照片
我們又上傳了一張破損嚴重的舊照,并要求這倆模型進行自動修復。
![]()
圖 1 為原圖;圖 2 為 Seedream 4.0;圖 3 為 Nano Banana。提示詞:Restore this photograph.
它們的處理結果都達到了可用水準,能夠有效去除照片中的裂痕與瑕疵,并在保持原有影像風格的前提下,恢復出較為完整的畫面。
二者實力幾乎不相上下,Seedream 4.0 的成片更清晰,人物面部輪廓與背景紋理表現得更加銳利; Nano Banana 的顆粒感更強,也更有老照片的味道。
Round5: 中文排版
在涉及中文文本生成與排版的任務中,Seedream 4.0 能將英文正確替換為中文,書寫感真實,整體與封面設計協調一致;而 Nano Banana 在這一任務中則出現了明顯問題,生成的文字難以辨認,呈現出類似「鬼畫符」的效果。
![]()
圖 1 為原圖;圖 2 為 Seedream 4.0;圖 3 為 Nano Banana。提示詞:Change the text on the image to "時尚芭莎" in a handwritten style.
綜合這五項測試結果來看,Seedream 4.0 與 Nano Banana 在圖像生成與編輯的核心能力上都展現了較高水準,能夠較好地理解復雜提示詞并生成符合要求的內容。
兩相對比,Nano Banana 在多圖融合中主體一致性更穩定,而 Seedream 4.0 則在美感、清晰度以及中文排版等方面表現更為突出,尤其在多語言環境與高精度任務中展現出明顯優勢。
可以預見,在多模態與生成式 AI 的賽道上,競爭將持續加速,而用戶也將因此獲得更豐富、更具想象力的創作體驗。





京公網安備 11011402013531號