![]()
智東西
作者 陳駿達
編輯 漠影
OpenAI的Nano Banana Pro平替,來了?
智東西12月17日報道,今天,OpenAI推出了其新一代圖像模型GPT Image 1.5。這一代模型具備更強的指令遵循,更精準的圖像編輯,也能較好的保留細節,生成速度則來到上一代模型的4倍。
![]()
OpenAI官方在宣傳片中集中展示了模型能力,可以看到,GPT Image 1.5將圖中人物準確地融入了太空、雨林等不同背景,還在手繪、毛氈等不同風格間保持了人物一致性。
與此同時,OpenAI還在ChatGPT中推出了獨立的圖像生成板塊,提供各種模板、風格,讓創作更為便捷
![]()
這些更新解鎖了不少新玩法。OpenAI創始人兼CEO Sam Altman曬出了自己用GPT Image 1.5打造的“消防員寫真年歷”。
![]()
不過,有網友發現圖中的日歷根本不準,還有好多網友勸Altman趕緊把這有點辣眼睛的照片刪了。ChatGPT的官方賬號實在忍不住,直接用GPT Image 1.5給Altman穿上了T恤衫。
![]()
OpenAI官方暫時沒有公布任何基準測試,不過在權威大模型測評網站Artificial Analysis上,GPT Image 1.5登頂文生圖和圖像編輯兩大榜單,均超越了谷歌的Nano Banana Pro。
![]()
在LMArena大模型競技場上,GPT Image 1.5同樣霸榜文生圖和圖像編輯兩大榜單。
![]()
GPT Image 1.5按token定價,價格取決于分辨率和質量設置。高質量一百萬像素圖像的價格約為每千張133美元,低質量每千張9美元。所有ChatGPT用戶今天都能用上這款模型,其API也已經同步推出。
GPT Image 1.5的技術實力究竟如何?發布后,已有不少網友對比了GPT Image 1.5與Nano Banana Pro的生成效果,智東西也對兩款模型的能力進行了體驗。
我們的感受與許多網友類似:雖然GPT Image 1.5是一款不錯的圖像生成模型,但它在真實度和細節準確度上,似乎仍與Nano Banana Pro存在明顯可感的差距。
一、生成效果“油膩感”明顯,網友直呼不如Nano Banana
首先來看看GPT Image 1.5的文生圖能力。我們的第一則提示詞考察了模型在復雜場景和多主體關系下的表現:
一幅超寫實風格的畫面:雨夜的東京街頭,霓虹燈映照在濕漉漉的路面上。前景是一位穿著透明雨衣的年輕女性,手持發光的全息傘;中景有一輛正在緩慢行駛的出租車,車窗內可見司機的側臉;背景是高樓林立的城市天際線與模糊的人群。電影感構圖,淺景深,4K細節。
在生成速度上,Nano Banana Pro更勝一籌,耗時大概15秒完成輸出,這包括其思考的過程。可以看到,Nano Banana Pro對復雜提示詞中的細節做到了準確還原,不過沒有理解“發光的全息傘”這一細節。畫面中,出租車和街道的細節都做到了準確的還原。
![]()
隨后GPT Image 1.5也給出了生成結果,第一眼我們就能感受到明顯的“AI味兒”。GPT Image 1.5的畫風十分“油膩”,飽和度拉得很高。對于我們明確要求的“車窗內可見司機的側臉”,GPT Image 1.5做了模糊化處理。人物和背景的融合也并不自然,給人一種處于兩個圖層的感覺。
![]()
如果仔細看,還能發現圖中角色右手只有四個手指,這種基礎的人體錯誤對一款2025年的生圖模型來說,實在有點不應該了。
接下來的提示詞,主要考察模型在風格遷移和語義約束方面的表現:
用梵高《星空》的筆觸和色彩風格,描繪一座未來主義太空站的內部大廳:巨大的弧形玻璃窗外是旋轉的星云和行星,室內有三名宇航員正在低重力環境中漂浮操作全息界面。保持強烈旋渦狀筆觸,但結構清晰、物體可辨。
GPT Image 1.5的生成依舊還是慢了半拍,不過這次我們先來看看其效果:雖然畫面內容基本準確,但在最關鍵的強烈旋渦狀筆觸和色彩風格上,可以說是差強人意,與梵高《星空》原作的區別十分明顯。
![]()
Nano Banana Pro的生成結果如下。可以看到,在保證細節準確的前提下,模型準確還原了梵高《星空》的畫風,色彩風格也更為接近原作。
![]()
這則提示詞主要考察細節一致性,畫面的視角也是非常規視角,能體現模型在邊緣場景的能力:
從貓的第一人稱視角看到的畫面:清晨的廚房,陽光從窗戶斜射進來,桌面上有一杯正在冒熱氣的咖啡和一塊咬過的面包。畫面下方隱約可見貓的前爪和胡須邊緣,廣角鏡頭,溫暖色調,生活攝影風格,高細節真實質感。
GPT Image 1.5在這種邊緣場景出現了很嚴重的崩壞。首先,貓只有半張臉長了胡子,鼻子等細節全部丟失了,讓人一時無法辨認這是貓臉還是一個小毛球。此外,對背景的虛化其實讓圖像的真實感更差了。
![]()
Nano Banana Pro的生成結果如下,憑畫面能一眼判斷這是我們要求的貓貓第一視角,光影還原度和細節呈現也符合我們的要求。
![]()
也有不少網友分享了對比實測的效果。同樣為人物肖像,左側由GPT Image 1.5生成的畫面中,人物的頭部過大,光影效果的日常感要差一些。Nano Banana Pro的生成結果雖然面部打光有點不足,窗子有點過曝,不過正是這種瑕疵讓圖像的真實感更好。
![]()
分享這一生成結果的網友稱:OpenAI徹底完了。
![]()
不過,也有網友補充道,如果在發給GPT Image 1.5提示詞里加入“未經處理的iPhone照片”、“低飽和度顏色配置文件”等要求,就能讓其效果更為真實。
![]()
AI博主Heisenberg分享了最近很火的巨人特效,他認為,相比之下,Nano Banana Pro的結果要自然得多。在細節方面,GPT Image 1.5出現了許多Bug,比如左側兩輛汽車直接面對面行駛,道路上的白線斷斷續續,Altman的手也顯得過大了。
![]()
我們還測試了GPT Image 1.5生成中文的能力。在前幾個字模型還保持了相對的準確度,但在之后就出現了諸多錯誤。
![]()
二、支持多元素融合、編輯,提供預制風格化模板
目前,GPT Image 1.5一天內提供大約5次的免費試用機會,在圖像編輯任務上,我們未能進行實測。不過,OpenAI在其官方博客中分享了不少案例。
GPT Image 1.5支持多元素融合,比如下圖就把OpenAI的兩位高管和一只狗融合到了同一畫面里,提示詞要求顯示出他們在生日派對上覺得很無聊,畫風限定為2000年代的膠片風。不過,對于膠片風的還原,這一畫面做得并不到位。
![]()
下圖則體現了GPT Image 1.5在元素替換方面的表現,提示詞要求把左圖人物的上衣變成紅色,帽子變成黃色,限速改為15,卡車變成消防車,這些都得到了不錯的還原。
![]()
GPT Image 1.5還支持多樣的風格遷移,有些風格只要使用預設的模板就行。
比如,可以把OpenAI的發布會,打造成老派黃金時代好萊塢電影海報風格。
![]()
把Altman的證件照變成80年代VHS健身教練風格。
![]()
或是把Altman放進2000年娃娃游戲的換裝界面,所有環境都是粉色的。
![]()
結語:產品體驗領先,模型上限仍待追趕
綜合來看,在Nano Banana系列模型已經拉高用戶預期的前提下,GPT Image 1.5并不是一次顛覆式的飛躍。它在指令遵循、多元素編輯、風格模板化和產品化體驗上,確實體現了OpenAI一貫擅長的產品思維。尤其是深度融入ChatGPT并推出獨立板塊之后,圖像生成的門檻被進一步拉低,創作流程也更加順滑。
但從純模型能力層面來看,GPT Image 1.5與Nano Banana Pro之間仍然存在肉眼可見的差距:真實感不足、細節穩定性偏弱、人體結構和復雜視角下的失誤,都會在高要求場景中被迅速放大。GPT Image 1.5能否獲得市場認可,仍有待觀察。





京公網安備 11011402013531號