人工智能領域又迎來一位“新星”——代號“納米香蕉”的AI圖像模型,憑借其強大的功能與便捷的操作,迅速在社交媒體上引發熱議。科技愛好者、設計師及內容創作者紛紛在各大平臺分享使用體驗,有人稱其為“AI生圖界的黑馬”,也有人贊其“重新定義了P圖方式”。短短一周內,該模型累計完成超2億次圖像編輯,成為近期最受關注的AI工具之一。
這款引發關注的模型,實為谷歌推出的Gemini 2.5 Flash Image。與傳統圖像生成工具不同,它不僅能將多張圖片融合成全新畫面,還能精準解析地理、建筑及物理結構,甚至將二維地圖轉化為三維景觀。用戶只需上傳照片,即可實現跨時空合影、發型變換、三維景觀生成等創意玩法。其中,最受歡迎的功能當屬“照片轉手辦”——無論是真人、動漫角色還是寵物,都能通過模型生成細節逼真的三維模型,大批用戶直呼“想立刻擁有”。
AI愛好者蔡小姐分享了她的使用體驗。她提到,模型最令人驚喜的是“對話式修圖”能力。用戶無需輸入復雜指令,只需用自然語言描述需求,模型便能快速完成編輯。例如,她上傳一張冬季人像照,要求讓人物露出笑容,模型迅速生成了一張表情自然、陽光燦爛的新照片。照片轉手辦功能也讓她印象深刻——上傳一張拉丁舞服照片后,模型不僅還原了裙擺的復雜細節,三維效果也十分出色,仿佛“從屏幕中跳了出來”。
“納米香蕉”的火爆,離不開其背后強大的技術支撐。據介紹,該模型在圖像一致性上實現了斷層式領先。用戶上傳一張人物照片后,模型可生成8種表情、不同角度或背景的變體,甚至轉化為三維圖像,人物形態始終保持穩定。在連續20次編輯操作中,字符一致性準確率超過95%。上海人工智能研究院技術總監方帥指出,這一表現源于模型對圖像理解能力的顯著提升——谷歌將Gemini大模型的知識儲備應用于圖像生成,使其能更精準地解析物理規則。例如,當輸入“氣球飄向仙人掌”的圖像并要求預測后續畫面時,模型會正確顯示氣球炸裂、仙人掌完好的結果,而此前同類模型常出現邏輯錯誤。
交互模式的革新也是“納米香蕉”的一大亮點。模型支持超過100種語言的自然語言指令,識別準確率達92%。用戶輸入“給他戴上帽子”,模型會立即輸出戴帽人物照;輸入多張照片后,用火柴人畫出動作,模型還能生成邏輯自洽的動態圖,如“一人踢腿進攻,一人蹲下防守”。這種“所見即所得”的交互方式,讓AI應用更貼近用戶想象。
“納米香蕉”的走紅,也推動了AI技術的商業化落地。在小紅書等平臺,已有用戶將創意轉化為娃衣、飾品、手機殼等實體商品,通過模型自帶店鋪完成銷售閉環。例如,一款成本15元、售價68元的藝術插畫手機殼,月銷100件即可創造可觀利潤。設計師們也開始采用“AI先行”模式——先輸出海量圖片,用流量測試市場反應,再生產實體產品。
不過,AI生成手辦仍面臨挑戰。二次元手辦企業APEX-toy創始人馬力指出,當前手辦平均配件數量達150個,復雜款甚至超過300個,AI尚無法精細還原所有細節,“但潮玩設計可能會率先受益”。與此同時,國內企業也在加速布局。階躍星辰副總裁李璟透露,其開源圖像編輯模型Step1X-Edit已具備同類能力,在語義解析、身份一致性保持及區域級控制上表現突出。例如,用戶可通過語音修改圖片元素——將粽子換成月餅、讓人物變老30歲,或調整發型、衣服顏色等。
李璟還表示,Step1X-Edit與“納米香蕉”的技術路線不謀而合,但視頻、圖像類交互產品的多模態大模型仍需大量迭代。未來,智能終端智能體(如汽車、手機及桌面工作助手)將成為應用核心。階躍星辰正探索“理解生成一體化”的架構突破,以期帶來更顛覆性的AI體驗。目前,先做產品還是先做架構尚未有定論,但競爭已愈發激烈。“納米香蕉”團隊坦言,其目標不僅是提升視覺質量,更要追求“聰明”與“事實準確性”,打造能理解用戶深層意圖的AI,甚至超越人類表現。





京公網安備 11011402013531號