![]()
這項由香港中文大學郭子宇、張任瑞等研究人員聯合北京大學、上海人工智能實驗室等機構開展的突破性研究,于2025年1月發表在arXiv預印本平臺,論文編號arXiv:2501.13926v2。有興趣深入了解的讀者可以通過https://github.com/ZiyuGuo99/Image-Generation-CoT訪問完整論文和代碼。
想象一下,你讓AI畫一張"紅蘋果放在橢圓盤子上"的圖片。傳統的AI就像一個悶頭苦干的畫師,拿起筆就開始畫,經常畫出奇怪的結果——比如蘋果是綠的,或者盤子變成了正方形。而現在,研究團隊教會了AI像人類畫家一樣"邊畫邊思考":先想想"我要畫什么?""這一筆畫得對嗎?""需要修改什么?"然后再繼續畫下去。
這種讓AI"思考著畫畫"的方法,就是從OpenAI的o1模型那里借鑒來的"鏈式思維推理"技術。就好比教孩子做數學題時,不是直接給答案,而是教他們一步步分析:"第一步要做什么?""第二步呢?""這樣做對不對?"現在,研究團隊把同樣的思路應用到了AI繪畫上,讓機器也能像人一樣有條不紊地創作。
研究團隊發現了一個有趣的現象:現在主流的AI繪畫模型大多采用"擴散模型"技術,就像在一張模糊的畫布上逐漸清晰化圖像。但還有另一類模型叫"自回歸生成模型",它們的工作方式更像人類畫畫——一個區域一個區域地逐步完成,每畫一筆都要考慮前面已經畫好的部分。這種特性讓它們天然適合"邊畫邊思考"的訓練方式。
研究團隊以Show-o模型為基礎,就像選擇了一個有潛力的學徒畫師,然后通過三種巧妙的訓練方法來提升它的繪畫水平。第一種方法叫"測試時驗證",就像給畫師配了一個嚴格的評審員,畫完每一步都要檢查:"這一筆畫得怎么樣?"如果不滿意就重新畫。第二種方法是"偏好對齊訓練",相當于讓畫師多看優秀作品和糟糕作品的對比,逐漸培養出好的審美品味。第三種方法是把前兩種結合起來,既有嚴格的評審,又有不斷的品味培養。
在"測試時驗證"的探索中,研究團隊發現了一個關鍵問題:傳統的評判標準不太適用于繪畫過程。就像評價一個廚師,你不能只看最后的菜品,還要看整個烹飪過程中的每個步驟。對于繪畫AI來說,早期的畫面往往很模糊,就像素描的初稿,很難判斷好壞;而后期的畫面雖然清晰,但不同路徑畫出的結果往往很相似,也難以區分優劣。
為了解決這個問題,研究團隊開發了一個專門的"潛力評估獎勵模型"(PARM),就像培訓了一個既懂繪畫技法又有長遠眼光的藝術老師。這個老師不僅能看出現在的畫面質量,還能預測"這樣畫下去最終會是什么效果"。更厲害的是,PARM還知道什么時候該開始認真評價——太早了畫面還太模糊沒法判斷,太晚了已經定型沒法修改,只有在恰當的時機才給出指導意見。
PARM的工作方式分為三個步驟,就像一個經驗豐富的繪畫導師。首先是"清晰度判斷":它會觀察當前的畫面,判斷是否已經足夠清晰到可以進行評價。如果畫面還太模糊,就耐心等待;如果已經比較清晰了,就進入下一步。然后是"潛力評估":它會分析這個畫面繼續畫下去是否有希望達到理想效果,就像一個老師看學生的草圖時能預判最終作品的質量。最后是"最終選擇":從所有被判定為"有潛力"的畫作中挑出最好的一個作為最終結果。
研究團隊還開發了PARM++,這相當于給AI畫師增加了"自我反思"的能力。當PARM++覺得畫作還不夠好時,它會具體指出哪里有問題,比如"物體顏色不對"或"位置關系錯誤",然后引導AI重新修改。這就像一個畫家畫完后自己審視作品,發現問題后主動修正,而不是被動接受批評。
在實際測試中,研究成果表現令人驚喜。在Geneval這個專業的圖像生成評測基準上,經過"思維訓練"的AI比原來的基礎模型提高了24%,甚至比著名的Stable Diffusion 3模型還要高出15%。這就好比一個原本中等水平的畫師,經過系統訓練后不僅大幅提升了自己的水平,還超越了一些知名畫家。
研究團隊特別關注那些最考驗AI繪畫能力的場景,比如畫多個物體、數數、準確表達顏色、描述空間位置關系等等。傳統的AI在這些方面經常出錯,比如讓它畫"三個紅蘋果",結果畫成了兩個綠蘋果;讓它畫"藍色杯子在紅色書本左邊",結果位置關系完全顛倒。而經過"思維訓練"的AI在這些方面都有了顯著改善,就像一個原本粗心的學生變得細致認真了。
從技術角度來看,這項研究的創新之處在于首次系統性地將"鏈式思維推理"應用到了自回歸圖像生成領域。研究團隊不是簡單地照搬文本領域的方法,而是深入分析了圖像生成的特殊性,設計了專門適合的訓練和評估策略。他們發現,相比于傳統的獎勵模型,PARM能夠更好地處理圖像生成過程中的模糊性和漸進性特征。
值得注意的是,這種方法不僅適用于Show-o模型,研究團隊還在LlamaGen和Janus-Pro等其他自回歸生成模型上進行了驗證,都取得了一致的改善效果。這說明"讓AI思考著畫畫"這個思路具有很好的普適性,就像一套好的教學方法可以應用到不同的學生身上。
研究過程中也暴露了一些有趣的現象。比如,單純的"測試時驗證"效果不如"偏好對齊訓練",這說明讓AI通過對比學習來提升品味,比單純的反復檢查更有效。但是當兩種方法結合使用時,效果會進一步提升,這證實了不同訓練策略的互補性。
從實際應用的角度來看,這項技術可能會改變我們與AI繪畫工具的交互方式。目前的AI繪畫工具往往需要用戶不斷調整提示詞、反復生成,直到得到滿意的結果。而具備"思維能力"的AI可能會更加智能,能夠理解復雜的描述,自主處理細節問題,減少用戶的試錯成本。
研究團隊還發現,讓AI進行"自我反思"雖然會帶來額外的計算開銷,但能夠顯著提升最終結果的質量。這就像讓畫家多花一些時間思考和修改,雖然效率略有下降,但作品質量會大幅提升。在實際應用中,用戶可以根據需求選擇是要快速生成還是高質量生成。
這項研究的意義不僅限于技術層面,它還為AI創作領域提供了新的思路。傳統上,我們往往把AI看作是一個"黑盒子",輸入需求就輸出結果。而這項研究展示了讓AI具備"元認知"能力的可能性——不僅知道如何做,還知道如何檢查自己做得對不對,如何改進。
當然,這項技術也有其局限性。目前的方法主要針對自回歸生成模型,對于占據主流地位的擴散模型還需要進一步的適配和優化。此外,增加的"思維"過程會帶來一定的計算開銷,在資源受限的環境下可能會影響使用體驗。研究團隊在論文中誠實地討論了這些限制,并提出了未來的改進方向。
從更廣闊的視角來看,這項研究是AI能力演進的一個重要里程碑。它不僅僅是讓機器畫畫畫得更好,更重要的是探索了讓機器具備"自我意識"和"反思能力"的路徑。這種"會思考的AI"可能會在更多領域發揮作用,從寫作、編程到科學研究,都可能受益于這種"邊做邊思考"的智能模式。
總的來說,香港中文大學團隊的這項研究為AI繪畫領域帶來了新的突破,不僅在技術上實現了顯著的性能提升,更在理念上展示了"思考型AI"的巨大潛力。隨著這項技術的進一步發展和優化,我們可能會看到更加智能、更加可靠的AI創作工具,它們不僅能夠理解我們的需求,還能像人類創作者一樣進行思考、判斷和自我完善。
Q&A
Q1:PARM是什么?它跟傳統的AI繪畫評判方法有什么不同?
A:PARM是"潛力評估獎勵模型"的簡稱,是專門為AI繪畫設計的智能評判系統。傳統方法要么只看最終結果,要么對每個步驟都強行評判,而PARM更聰明——它知道什么時候該開始評價(畫面足夠清晰時),能預測畫作的發展潛力,就像一個經驗豐富的繪畫老師既能看出學生草圖的問題,又能預判最終效果。
Q2:這種讓AI"邊畫邊思考"的方法會讓繪畫速度變慢嗎?
A:確實會增加一些計算時間,因為AI需要額外的"思考"過程來評估和調整。但研究團隊發現這種時間投入是值得的——雖然單次生成稍慢一些,但畫出好作品的成功率大大提高,用戶不需要反復重新生成,總體效率反而可能更高。就像畫家多花時間思考構圖,雖然慢一點但能避免返工。
Q3:這項技術什么時候能在日常的AI繪畫工具中使用?
A:目前研究團隊已經在GitHub上開源了相關代碼(https://github.com/ZiyuGuo99/Image-Generation-CoT),技術開發者可以基于此進行開發。但要集成到像Midjourney、Stable Diffusion這樣的主流工具中,還需要進一步的工程優化和適配工作。預計在未來1-2年內,我們可能會在一些新的AI繪畫產品中看到類似的"思考型"功能。





京公網安備 11011402013531號