![]()
機器之心報道
編輯:冷貓
蘋果在大模型和大模型應用上總是慢人一步。
Apple Intelligence 發布也已經一年多了,除去其仍未能在國行設備上提供服務外,功能上也很難稱得上有多好用。
就拿視覺生成類功能舉例子,蘋果的圖像生成大概是這個畫風:
![]()
但在開放研究領域里,蘋果似乎一整個脫胎換骨,在純粹的研究中經常會有一些出彩的工作。
但這次蘋果發布的研究成果的確出人意料:
他們用谷歌的 Nano-banana 模型做個了視覺編輯領域的 ImageNet。
![]()
對于蘋果用納米香蕉和 Gemini 的事情,引發了網友遐想:
![]()
在文本引導的圖像編輯的工作中,GPT4-o 和谷歌 Nano-banana 都能夠實現令人驚艷的編輯效果,保留原圖像的特征,實現高質量的新圖像的生成。尤其是 Nano-banana,真正能被成為圖像編輯的里程碑和新標桿。
但目前在研究界仍然缺乏針對圖像編輯的,來自真實圖像的大規模,高質量的開放數據集。
為此,來自蘋果的研究團隊提出Pico-Banana-400K,一個包含 40 萬張圖像的基于指令的圖像編輯綜合數據集。
![]()
論文標題:Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing論文鏈接:https://arxiv.org/pdf/2510.19808
該數據集通過利用 Nano-Banana 在 OpenImages 實拍照片上生成多樣化的編輯對構建而成。
與以往的合成數據集不同,Pico-Banana-400K 的獨特之處在于對質量與多樣性的系統化設計。蘋果的研究團隊采用精細的圖像編輯分類體系,以確保編輯類型的全面覆蓋;并通過基于多模態大模型的質量評分與人工精篩,實現內容一致性與指令忠實性的平衡。
![]()
數據集構成
單輪監督微調 (SFT) 子集包含25.8 萬個成功的單輪圖像編輯示例,作為遵循指令的圖像編輯模型的核心訓練數據。此子集涵蓋了 35 種編輯分類法的全部范圍,并為模型訓練提供強大的監督信號。
除了單輪編輯外,Pico-Banana-400K 還支持復雜的多輪編輯研究。數據集包含三個專門子集:
72K 多輪編輯集—— 用于研究連續修改中的順序編輯、推理與規劃;
多輪 SFT 子集包含7.2 萬個按順序進行的編輯交互示例,序列長度從 2 到 5 輪不等。對于每張采樣的圖像,隨機選擇 1-4 種額外的編輯類型以形成連貫的編輯序列。Gemini-2.5-Pro 為每一輪生成上下文感知指令,鼓勵使用指代性語言以保持語篇連續性。該子集支持對迭代細化、上下文相關編輯以及跨多個編輯步驟的復雜推理進行研究。
56K 偏好集—— 用于對齊研究與獎勵模型訓練;
偏好子集包含5.6 萬個示例,由原始圖像、指令、成功編輯和失敗編輯組成的三聯體。這種獨特的資源專為對齊研究而設計,可用于訓練獎勵模型和應用直接偏好優化(DPO)等對齊技術。這解決了現有數據集的一個關鍵空白,因為現有數據集通常只提供成功的編輯,而缺乏對比性的低質量編輯示例。
長短指令配對集—— 用于發展指令重寫與摘要能力。
通過提供這一大規模、高質量且任務豐富的資源,Pico-Banana-400K 為訓練和評測新一代文本引導圖像編輯模型奠定了堅實基礎。
蘋果不僅發布了一個數據集,還構建了一個能夠自我編輯和評估的完整流程:
納米香蕉負責進行編輯。Gemini 2.5 Pro 負責評判結果,失敗會自動重試,直到通過。該流程真正實現端到端運行,全程無需人工干預。
![]()
來自 Pico-Banana-400K 數據集的單輪文本引導圖像編輯示例。每一對圖像展示了編輯結果(右)及其對應的原始圖像(左)。該數據集涵蓋多種編輯類型,包括光度調整、物體級操作、風格化變換以及場景或光照修改等。
![]()
圖像編輯指令內容的分布情況
該數據集系統地映射為35 種現實世界的編輯類型,涵蓋了從全局色調變化到人類風格化和物體重新定位等所有方面。這就像向人工智能傳授所有存在的 Photoshop 技能一樣。
![]()
圖像編輯分類。
如上表所示,每種操作都歸屬于其對應的類別。Count 表示在單輪編輯子集中,經 Gemini-2.5-Pro 評估器判定(符合指令且具備視覺質量)并在最多三次嘗試內成功的樣本數量。
若某個(圖像,指令)對在三次生成嘗試中全部失敗,則被視為失敗案例,并從公開數據集中剔除。若在獲得成功結果前經歷了一到兩次失敗嘗試,則這些失敗的編輯結果也會被保留下來,用于構建偏好數據(preference data)。
這里是一個很巧妙的地方,蘋果保留了失敗的編輯結果。
每個失敗的編輯都與成功的編輯配對。因此,在該數據集上,不再只是訓練模型「做得更好」,而是訓練它們知道「更好」是什么樣的。這是一種在多模態系統中構建判斷力的方法。
![]()
偏好三元組示例。 從左至右依次為:原始圖像、中間面板中的自然語言指令(要求將粉白色吸管移動到最左邊的玻璃杯中),以及模型生成的兩種結果:一種是成功的編輯,準確完成了指令并保持了場景一致性;另一種是失敗的編輯,未正確執行指令(位置或幾何關系錯誤)。
偏好子集是該領域中一項極具價值的貢獻。通過系統地收集成功與失敗的編輯嘗試,該數據集為人類對齊與偏好學習研究提供了可能。
失敗的編輯通常表現出一些常見的失誤類型,例如未能完整遵循指令、出現視覺偽影或與原圖內容融合不佳。這些數據可用于訓練能夠理解人類編輯質量判斷的獎勵模型,或用于應用 DPO 等技術,從而提升模型與人類偏好的對齊程度。
數據分析
![]()
各編輯類型的成功率
研究團隊評估了數據集中不同編輯類型的成功率。如圖所示,呈現出一致的規律:全局外觀和風格編輯較為容易,而需要精細空間控制、布局或符號一致性的編輯仍然具有挑戰性。
容易:全局編輯與風格化
全局編輯的可靠性最高。強藝術風格遷移的成功率為 0.9340,膠片顆粒 / 復古效果為 0.9068,現代?歷史風格互轉為 0.8875。這些操作主要調整全局紋理、色彩統計和色調,對空間推理或顯式目標協調的需求較低。
中等:對象語義與場景上下文
語義上有針對性但較粗粒度的編輯總體表現穩健。移除物體的成功率為 0.8328,替換類別為 0.8348。場景級修改(如季節變換 0.8015、照片→卡通 / 素描 0.8006)表現相似。典型失敗案例源于僅文本條件下定位不準確(例如誤改相鄰區域)或輕微的顏色 / 紋理漂移。
困難:精確幾何、布局與文字編輯
需要精細空間控制或符號正確性的編輯可靠性最低。移動物體最為困難,成功率僅 0.5923;改變尺寸 / 形狀 / 方向為 0.6627,常出現透視不一致或拓撲斷裂。外延繪制(outpainting) 的成功率為 0.6634,常在邊界連續性上出現問題。
文字編輯尤為脆弱:更改字體 / 樣式的成功率最低,僅 0.5759;而翻譯、替換或添加文本也不穩定,反映出在真實感圖像中保持字形完整性、對齊和對比度的困難。
在人類風格化編輯中,皮克斯 / 迪士尼式 3D 風格(0.6463)和漫畫夸張風格(0.5884)往往出現身份漂移或陰影偽影,尤其在形變較大時更明顯。
排版仍然是多模態人工智能迄今為止最難的問題。
總結
該論文的主要貢獻有:
1.大規模可共享數據集:發布了 Pico-Banana-400K,包含約 40 萬個基于真實圖像構建的高質量圖像編輯示例。數據集依據 35 類編輯類型分類體系 進行系統組織,并通過自動化評分與人工核驗實施嚴格的質量控制。
2.多目標訓練支持:除 25.8 萬個單輪監督微調樣本外,還提供 5.6 萬對偏好樣本(成功編輯 vs. 失敗編輯),用于 DPO 和 獎勵建模等對齊方法的研究,從而支持模型在魯棒性與偏好學習方面的探索。
3.復雜編輯場景:收錄了 7.2 萬組多輪編輯序列,每個會話包含 2–5 次連續編輯,便于研究迭代式優化、上下文感知編輯與編輯規劃等問題。所有樣本均包含詳細版與簡潔版指令,以支持研究提示粒度對模型表現的影響。
Pico-Banana-400K 不僅僅是一個數據集,它是證明人工智能現在可以大規模生成和驗證自己的訓練數據,并且精確無誤,無需人工監督。
蘋果公司悄無聲息地奠定了未來十年多模態學習的基礎。





京公網安備 11011402013531號