谷歌的最強大人工智能(AI)模型Gemini 3剛發布兩天,就來返場送驚喜了。
美東時間20日周四,谷歌宣布,基于Gemini,升級其大熱的圖像生成與編輯模型。新推出的模型Nano Banana Pro號稱能提供“攝影棚級別”的精度和控制,在文本渲染準確性、分辨率和專業控制能力上實現顯著提升,旨在將AI圖像工具從消費級應用推向專業設計領域。
Nano Banana Pro支持生成最高4K分辨率的圖像,可在多語言環境下精確渲染文本,并允許用戶像使用專業相機一樣控制拍攝角度、景深、色彩和光照等參數。谷歌Labs和Gemini副總裁Josh Woodward表示,該產品在信息圖表制作、幻燈片設計等方面表現出色,可保持最多五個角色和十四個物體的一致性。
![]()
谷歌的全球免費Gemini用戶將能夠在配額限制內使用Nano Banana Pro,超出配額后將自動切換回舊版模型,付費AI計劃訂閱用戶則擁有更高使用額度。該模型已集成至Canva、Figma、Adobe Firefly和Photoshop等主流設計工具。
谷歌還同步推出了AI內容溯源功能。用戶可在Gemini應用程序App中上傳圖像,查詢其是否由谷歌AI生成,該功能未來將擴展至音頻和視頻。此舉是谷歌將AI技術商業化的最新嘗試,也是其在生成式AI競賽中追趕OpenAI的重要一步。
這一發布延續了谷歌本周在AI領域的強勁勢頭。周二發布的Gemini 3在推理和編碼能力上實現"巨大躍升",周三推動谷歌母公司Alphabet股價創歷史新高。周四官宣Nano Banana Pro當天,股價早盤一度漲近5%,但午盤追隨大盤轉跌,收跌約1%,暫別周三刷新的收盤最高紀錄。
![]()
攻克AI拼寫難題,文本渲染實現突破
AI圖像生成模型長期面臨的一個核心挑戰是文本渲染準確性。雖然部分模型隨時間推移改進,但在生成包含多個文本短語的圖像時,拼寫錯誤和字體扭曲仍然常見,這限制了其作為專業設計工具的潛力。
Nano Banana Pro直接針對這一問題提供解決方案。谷歌發言人表示,新模型在渲染最終圖像前,能夠更好地規劃文本位置、字體特征及其與其他圖像元素的空間關系。該技術可將菜譜文本轉換為圖解流程圖,或可視化天氣、體育等實時信息。
![]()
Nano Banana Pro支持生成清晰可辨的文本,用戶可描述所需字體類型或模擬不同手寫風格,還能在圖像內生成本地化文本或翻譯文字。這使用戶能夠創建針對國際市場的產品展示、海報和信息圖表。谷歌在博客文章中強調,銳利、清晰的文本幫助用戶制作富有沖擊力的海報、復雜圖表和詳細產品模型。
![]()
不過谷歌也提醒用戶注意局限性。新模型在生成信息圖表、標注圖表或呈現復雜數據時,可能誤讀信息或產生事實錯誤。雖然能夠生成和翻譯多語言文本,但在語法、拼寫、文化細微差別或慣用語方面仍可能出現問題。用戶應始終仔細檢查生成的圖像及其中文本的準確性。
專業級控制功能,分辨率躍升至4K
Nano Banana Pro為專業用戶提供了前所未有的精細控制能力。用戶可探索不同拍攝角度和類型,包括廣角、全景、特寫等,還能調整景深以聚焦圖像中的不同主體。
在色彩和光照方面,用戶可調整色調分級和光照方向,甚至可將場景從白天轉換為夜晚。
![]()
模型支持1K、2K和4K三種分辨率的精準放大,并能隨意切換縱橫比以適配不同平臺或用途。
![]()
分辨率提升的代價是成本增加和速度下降。原Nano Banana模型生成1024像素圖像的成本為0.039美元,而新模型生成1080p或2K圖像的成本為0.139美元,4K圖像為0.24美元。
在素材一致性方面,模型可在單一工作流程中保持最多五個角色的一致性和相似度,以及最多十四個物體的保真度。對于希望在營銷活動中融入自身設計的品牌,模型可接收最多14張參考圖像,并在用戶文本提示描述的新場景中重新編排它們,同時保留輸入素材的特征。
模型還能將草圖轉化為物體,將手繪筆記轉為圖表,將創意變成3D渲染建筑。用戶可一次創建多張圖像,快速高效地探索和審查創意選項。谷歌表示,模型還能創建具有真實細節的風景、植物、人物和動物的逼真圖像。
![]()
廣泛產品集成,付費用戶獲更高配額
Nano Banana Pro正在谷歌現有AI工具中全面推廣。Gemini App將默認使用新模型生成圖像,免費訂閱用戶可在限定配額內使用,超出后將切換回原Nano Banana模型。Google AI Plus、Pro和Ultra訂閱用戶將獲得更高生成額度,這些付費用戶還可在Notebook LM中使用該模型。
在美國地區,AI Pro和Ultra訂閱用戶可通過AI模式在搜索中訪問該模型。Ultra訂閱用戶還能在谷歌視頻工具Flow中使用,Workspace客戶可在Google Slides和Vids中使用。開發者則可通過Gemini API、Google AI Studio和新IDE Antigravity調用Nano Banana Pro。
谷歌同時將其SynthID技術整合至Gemini應用,用于為AI生成圖像添加水印和檢測。用戶可上傳圖像,聊天機器人將告知該圖像是否由谷歌圖像模型創建或修改。谷歌目前為所有AI工具創建的媒體嵌入不可見的數字水印,免費或Pro方案的訂閱用戶創建的圖像還會添加可見水印,訂閱最高價Ultra方案的用戶則可移除可見水印。谷歌未提及是否計劃支持C2PA等其他AI水印標準。
用戶增長強勁,商業化進程提速
Nano Banana Pro的前身Nano Banana今年8月面世后在社交媒體上迅速走紅,用戶將自己或寵物的照片轉化為超寫實3D小雕像。Woodward在9月的X帖子中寫道,該產品幫助Gemini應用在四天內新增1300萬用戶。
據谷歌發布的數據,Gemini App目前每月活躍用戶超過6.5億,由Gemini驅動的AI Overviews每月用戶達20億。相比之下,OpenAI CEO Sam Altman在10月表示,ChatGPT每周活躍用戶達8億。
Woodward本周四表示,谷歌AI產品需求持續增長,許多用戶注冊Gemini訂閱計劃以獲得"這些高級模型的更高限額"。他表示,"我們看到大量用戶涌向這些產品,這實際上是最好的問題——需求很大,我們正在努力弄清楚如何服務這些需求。"
此次發布標志著谷歌將AI技術商業化的最新嘗試。自2022年ChatGPT發布引發生成式AI競賽以來,谷歌一直在努力追趕OpenAI。上周,OpenAI宣布對GPT-5模型進行兩項更新,使其"默認更溫暖、更具對話性",并"在日常使用中更高效、更易理解"。目前ChatGPT在蘋果App Store免費應用榜單中排名第一,Gemini位居第二。
Woodward表示,公司計劃繼續擴大AI產品規模,重點包括AI電影制作工具Flow和目前作為有限研究預覽版提供的"世界構建"模型Genie。





京公網安備 11011402013531號