
本文字?jǐn)?shù):1896,閱讀時(shí)長(zhǎng)大約3分鐘
作者 | 第一財(cái)經(jīng) 劉曉潔
當(dāng)?shù)貢r(shí)間11月20日,在用Gemini 3“屠榜”大模型圈后,谷歌又甩出了另一張王牌Nano Banana Pro (Gemini 3 Pro圖像),在海內(nèi)外社交媒體上網(wǎng)友已經(jīng)玩瘋了,從眾多一手測(cè)試來(lái)看這款模型進(jìn)步依然很大。

谷歌表示,Nano Banana Pro使用Gemini最先進(jìn)的推理和現(xiàn)實(shí)世界的知識(shí),比以往任何時(shí)候都更好地可視化信息,比如創(chuàng)建和編輯更復(fù)雜的視覺效果、信息圖表等等。
具體來(lái)看,Nano Banana Pro這次升級(jí)有幾個(gè)重要的方向,一個(gè)是更高清,可以2K和4K 高分辨率直出,這對(duì)專業(yè)用戶來(lái)說(shuō)非常重要。此外支持更好更長(zhǎng)的文字生成、多語(yǔ)言支持,可直接在圖片中完成翻譯。在攝影質(zhì)量上,支持拍攝角度、焦點(diǎn)、色彩的調(diào)整。圖片比例可以進(jìn)行1:1到9:16各種調(diào)整,以及更好的角色一致性。
第一財(cái)經(jīng)記者進(jìn)行了兩個(gè)方向的測(cè)試,Nano Banana Pro確實(shí)相比上一代進(jìn)步很多,不過(guò)模型在處理一些細(xì)節(jié)時(shí)仍有缺陷。
記者第一次是讓Nano Banana 的第一代和現(xiàn)在的Pro分別生成一張未來(lái)的新聞編輯部的照片,一個(gè)未來(lái)的AI機(jī)器人繪制雜志的封面,旁邊幾位專業(yè)人士在指導(dǎo)繪畫細(xì)節(jié),強(qiáng)調(diào)未來(lái)感、高清、細(xì)節(jié)。

可以看到Nano Banana生成的雜志圖片名稱是錯(cuò)誤的,并且人物肢體還會(huì)有多出的現(xiàn)象。
切換到Nano Banana Pro后,一些細(xì)節(jié)更真實(shí)了,雜志的名字都寫對(duì)了,并且模型還在左下角加了條形碼。不過(guò)這兩張圖片的清晰度仍然不夠,這或許是因?yàn)槊赓M(fèi)的原因。

讓模型將畫面切換成動(dòng)漫風(fēng)格。

在官方博客中,谷歌表示可以用多張圖像融合,并保持角色的一致性。記者第二次按照這一方向,輸入了5張照片,包括4張寵物照片和一張景色,簡(jiǎn)單提示模型將它們?nèi)诤显谝黄稹?/p>

從輸出的圖像來(lái)看,這一融合是合格的,但仍未超出預(yù)期,更像是將幾張圖摳圖拼貼在一起了,角色和場(chǎng)景沒有互動(dòng),并且其中一張圖的角色大改,并沒有遵守角色一致性。
記者進(jìn)一步提示Nano Banana Pro,讓這些角色快樂地玩耍,畫面需要生動(dòng),但模型給出的答案只是增加了原圖中的角色,其他都未有變動(dòng)。

從記者的測(cè)試來(lái)看,Nano Banana Pro模型相比上一代有進(jìn)步,但缺陷仍有,并不像目前業(yè)界測(cè)試的結(jié)果那樣出色。不過(guò),模型能力或許也取決于會(huì)員充值以及提示詞的精確性。
例如,在谷歌給出的示意圖里,使用 14 張玩偶圖像生成一張圖,在精細(xì)的提示詞下畫面融合得非常自然。

提示詞:一個(gè)中景鏡頭,14個(gè)毛茸茸的小家伙并排擠在一張米色舊布藝沙發(fā)上和地板上。它們都面向前方,看著一臺(tái)老式木盒電視機(jī),電視機(jī)放在沙發(fā)前的一張矮木桌上。房間光線昏暗,左側(cè)窗戶透進(jìn)溫暖的光線,電視機(jī)的光芒照亮了小家伙們的臉龐和毛茸茸的觸感。背景是一個(gè)溫馨略顯凌亂的客廳,鋪著編織地毯,書架上擺放著舊書,遠(yuǎn)處可見一些質(zhì)樸的廚房元素。整體氛圍溫暖、舒適而又充滿趣味。
有博主用Nano Banana Pro 測(cè)試電商圖效果,測(cè)試的重點(diǎn)是“光影控制”和“材質(zhì)還原”,他發(fā)現(xiàn)模型已經(jīng)能精準(zhǔn)理解“側(cè)逆光”“柔光箱”以及不同材質(zhì)的反射率。只要提示詞足夠好,效果已經(jīng)非常不錯(cuò),對(duì)中小賣家很友好。

還有網(wǎng)友讓模型生成一些關(guān)于ITF跆拳道的說(shuō)明。他表示,效果相當(dāng)不錯(cuò),“它是第一個(gè)真正能區(qū)分ITF跆拳道道服和奧運(yùn)跆拳道道服的模型。甚至連標(biāo)志都自動(dòng)修正了。”

在當(dāng)前的用戶政策上,谷歌給出了幾個(gè)選擇。面向消費(fèi)者和學(xué)生,在 Gemini 應(yīng)用中選擇“創(chuàng)建圖像”并使用“思考”模型,就能體驗(yàn) Nano Banana Pro。免費(fèi)用戶將獲得有限的免費(fèi)配額,用完后將恢復(fù)到原有的 Nano Banana 模型。而Google AI Plus、Pro 和 Ultra 訂閱用戶可獲得更高的配額。
開發(fā)者和企業(yè)則是可以在Gemini API 和 Google AI Studio 以及 Google Antigravity 中使用,用于創(chuàng)建豐富的 UX 布局和模型。
就在今年8月,谷歌發(fā)布了第一代Nano Banana(Gemini 2.5 Flash Image模型),在當(dāng)時(shí)迅速登頂多個(gè)主流圖像排行榜,成為新晉性能冠軍。同時(shí)由于模型能夠?qū)⑷宋镎掌兂伞?D打印手辦”,短時(shí)間內(nèi)形成全球范圍內(nèi)的破圈效應(yīng)。
在此前的媒體溝通會(huì)上,谷歌Gemini App的產(chǎn)品管理副總裁克里斯斯特魯哈爾(Chris Struhar)提到,Gemini應(yīng)用的月活用戶數(shù)在短短1個(gè)季度內(nèi),就從4.5億暴增至6.5億,其中一個(gè)關(guān)鍵因素是Nano Banana帶來(lái)的病毒式傳播效應(yīng),尤其是在泰國(guó)、印度尼西亞、印度等國(guó)家,這是一款非常成功的產(chǎn)品。
從當(dāng)前的用戶反饋看,此次升級(jí)的Nano Banana Pro或許會(huì)延續(xù)上一代的熱度,并且在圖像專業(yè)領(lǐng)域有更深入的應(yīng)用。
伴隨著近日新模型的發(fā)布,谷歌的股價(jià)也在這幾天履創(chuàng)歷史新高,就在昨夜,谷歌一度大漲超3%,總市值達(dá)到3.65萬(wàn)億美元,超過(guò)微軟進(jìn)入美股總市值前三。隨著昨夜美股科技板塊的大跌,最終谷歌收跌于289.45美元/股,總市值3.49萬(wàn)億美元。不過(guò),今年以來(lái)谷歌股價(jià)漲幅仍超過(guò)50%。





京公網(wǎng)安備 11011402013531號(hào)