8月27日,科技媒體The Decoder昨日(8月26日)發布博文,報道稱谷歌DeepMind正式推出其最先進的圖像生成與編輯模型Gemini 2.5 Flash Image,在Gemini應用中可根據文字指令,在保持人物與動物的外觀一致的情況下,提高修改圖片的精度。
據介紹,與此前的原生圖像生成工具相比,它在根據文字進行圖像修改時的準確率更高,谷歌表示,Gemini 2.5 Flash Image在多項任務中優于ChatGPT所用的GPT-4o,特別是在編輯圖像時,它可以根據文字提示進行編輯。

該模型還支持通過文本提示進行精確的局部編輯。用戶可以通過模糊背景、去除瑕疵、添加顏色或擦除整個物體,無需進行手動選擇。同時該模型支持一次融合最多三張圖像。

目前用戶可通過Gemini App、API等方式訪問,其API定價為每百萬輸出token30美元,單張圖像成本約0.039美元。





京公網安備 11011402013531號