計算機視覺life”,選擇“星標”
快速獲得最新干貨
CVPR'24最佳論文 | 加州大學聯合谷歌等發布“豐富的人類反饋用于文生圖” 文章鏈接:[2312.10240] Rich Human Feedback for Text-to-Image...
數據集倉庫:google-research/richhf_18k at master · google-rese...
作者單位:加州大學、谷歌、南加州大學、劍橋大學、布蘭迪斯大學
最近的文本到圖像(T2I)生成模型(例如穩定擴散和 Imagen)在基于文本描述生成高分辨率圖像方面取得了重大進展。然而,許多生成的圖像仍然存在諸如偽影/難以置信、與文本描述不一致以及審美質量低等問題。受大型語言模型的人類反饋強化學習 (RLHF) 成功的啟發,之前的工作收集了人類提供的分數作為生成圖像的反饋,并訓練獎勵模型來改進 T2I 生成。在本文中,我們通過(i)標記不可信或與文本不對齊的圖像區域,以及(ii)注釋文本提示中的哪些單詞在圖像上被歪曲或丟失來豐富反饋信號。我們在 18K 生成圖像 (RichHF18K) 上收集如此豐富的人類反饋,并訓練多模態轉換器來自動預測豐富的反饋。我們表明,可以利用預測的豐富人類反饋來改進圖像生成,例如,通過選擇高質量的訓練數據來微調和改進生成模型,或者通過使用預測的熱圖創建掩模來修復有問題的區域。值得注意的是,除了用于生成收集人類反饋數據的圖像(穩定擴散變體)之外,這些改進還推廣到了模型(Muse)。












京公網安備 11011402013531號