![]()
由中國科學(xué)院大學(xué)葉啟翔教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì)在2024年12月發(fā)表了一項(xiàng)突破性研究成果,論文題為《Thinking with Images via Self-Calling Agent》,該研究提出了一種全新的AI視覺推理范式,徹底改變了機(jī)器理解和處理圖像的方式。這項(xiàng)研究發(fā)表在arXiv預(yù)印本服務(wù)器上,編號(hào)為arXiv:2512.08511v2,為AI視覺推理領(lǐng)域帶來了革命性的創(chuàng)新思路。
當(dāng)我們看到一張復(fù)雜的照片時(shí),大腦會(huì)自動(dòng)將其分解成一個(gè)個(gè)小的觀察任務(wù)——先看整體,再關(guān)注細(xì)節(jié),識(shí)別文字,理解空間關(guān)系,最后綜合所有信息得出結(jié)論。這個(gè)過程看似簡(jiǎn)單,但對(duì)于人工智能來說卻異常困難。目前的AI模型就像一個(gè)不會(huì)合理分工的工廠,試圖同時(shí)處理圖像中的所有信息,結(jié)果往往顧此失彼,效率低下。
中科院的研究團(tuán)隊(duì)深刻認(rèn)識(shí)到這個(gè)問題。他們發(fā)現(xiàn),現(xiàn)有的"交替多模態(tài)思維鏈"方法就像讓一個(gè)人同時(shí)用左手畫圓、右手畫方,雖然理論上可行,但實(shí)際操作極其困難。這種方法要求AI在處理圖像和文字之間不斷切換,就像一個(gè)廚師需要同時(shí)炒菜、切菜、調(diào)味,結(jié)果往往是手忙腳亂,效果不佳。更關(guān)鍵的是,這種復(fù)雜的切換過程很難通過強(qiáng)化學(xué)習(xí)來優(yōu)化,就像試圖教一個(gè)機(jī)器人同時(shí)學(xué)會(huì)騎自行車和走鋼絲一樣困難。
面對(duì)這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)提出了一個(gè)絕妙的解決方案:自調(diào)用思維鏈(Self-Calling Chain-of-Thought,簡(jiǎn)稱sCoT)。這個(gè)方法的核心思想非常巧妙——將復(fù)雜的視覺推理任務(wù)重新定義為一個(gè)純語言推理過程,但配備了"自我調(diào)用"的能力。
這就好比將原本混亂的工廠重新組織成一個(gè)高效的現(xiàn)代企業(yè)。在這個(gè)企業(yè)中,有一個(gè)總經(jīng)理(主智能體),當(dāng)面臨復(fù)雜任務(wù)時(shí),它不會(huì)親自處理每一個(gè)細(xì)節(jié),而是將任務(wù)分解成若干個(gè)簡(jiǎn)單的子任務(wù),然后"召喚"自己的虛擬分身(子智能體)來處理這些專門的工作。關(guān)鍵的是,這些子智能體實(shí)際上都是同一個(gè)AI模型的不同實(shí)例,就像一個(gè)人的多個(gè)分身,共享相同的"大腦"和能力,但專注于不同的具體任務(wù)。
具體來說,當(dāng)AI遇到一個(gè)復(fù)雜的視覺問題時(shí),比如"這張照片是在哪里拍攝的",主智能體會(huì)首先分析整體情況,然后制定一個(gè)詳細(xì)的調(diào)查計(jì)劃。它可能會(huì)說:"我需要先讀取圖片中的文字信息,然后識(shí)別建筑物的特征,最后分析地理標(biāo)志。"接下來,它會(huì)依次調(diào)用專門的子智能體:第一個(gè)專門做文字識(shí)別(OCR),第二個(gè)專門做物體檢測(cè),第三個(gè)專門做圖像描述。每個(gè)子智能體都在一個(gè)相對(duì)簡(jiǎn)單、清晰的環(huán)境中工作,就像專業(yè)的技術(shù)員在自己熟悉的工作臺(tái)上操作一樣。
這種方法的妙處在于將原本復(fù)雜的多模態(tài)推理問題轉(zhuǎn)換成了純語言推理問題。主智能體的整個(gè)思考過程都是用語言進(jìn)行的,它思考的是"我應(yīng)該調(diào)用哪個(gè)工具"、"如何整合這些信息"等問題,而不需要同時(shí)處理圖像和文字的復(fù)雜交互。這就像將原本需要同時(shí)進(jìn)行的多種技能變成了按順序進(jìn)行的單一技能,大大降低了學(xué)習(xí)和優(yōu)化的難度。
研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)格的工具調(diào)用協(xié)議,確保主智能體能夠精確地與子智能體溝通。每次調(diào)用都需要三個(gè)關(guān)鍵信息:任務(wù)類型(比如是做文字識(shí)別還是物體檢測(cè))、具體指令(告訴子智能體要做什么)、以及圖像區(qū)域(指定要分析圖片的哪個(gè)部分)。這種設(shè)計(jì)確保了整個(gè)系統(tǒng)的有序運(yùn)行,避免了混亂和低效。
為了讓這個(gè)系統(tǒng)能夠不斷改進(jìn),研究團(tuán)隊(duì)采用了群體相對(duì)策略優(yōu)化(GRPO)這一先進(jìn)的強(qiáng)化學(xué)習(xí)方法。這就像為整個(gè)團(tuán)隊(duì)設(shè)計(jì)了一套完善的績效評(píng)估和改進(jìn)機(jī)制。系統(tǒng)會(huì)根據(jù)最終結(jié)果的準(zhǔn)確性、格式的規(guī)范性、以及工具使用的合理性來評(píng)分,然后反饋給主智能體,幫助它學(xué)習(xí)更好的任務(wù)分解和協(xié)調(diào)策略。
特別值得注意的是,研究團(tuán)隊(duì)在獎(jiǎng)勵(lì)設(shè)計(jì)上做了一個(gè)重要的改進(jìn)。他們發(fā)現(xiàn)原有的系統(tǒng)存在一個(gè)漏洞:AI可能會(huì)在給出答案后再調(diào)用工具,這樣既能獲得正確答案的獎(jiǎng)勵(lì),又能獲得使用工具的獎(jiǎng)勵(lì),但這種行為實(shí)際上沒有意義。因此,他們加入了一個(gè)時(shí)間順序的約束:只有在答案給出之前調(diào)用的工具才能獲得獎(jiǎng)勵(lì)。這個(gè)設(shè)計(jì)確保了AI學(xué)會(huì)的是真正有意義的推理策略。
實(shí)驗(yàn)結(jié)果令人振奮。在兩個(gè)權(quán)威的視覺推理基準(zhǔn)測(cè)試V*和HR-Bench上,使用sCoT方法訓(xùn)練的模型(被稱為SubagentVL)表現(xiàn)優(yōu)異。在V*基準(zhǔn)測(cè)試中,SubagentVL達(dá)到了91.6%的綜合準(zhǔn)確率,比基礎(chǔ)模型提升了20.4個(gè)百分點(diǎn);在HR-Bench 4K測(cè)試中,達(dá)到了77.0%的準(zhǔn)確率,提升了8.2個(gè)百分點(diǎn)。更令人印象深刻的是,這些性能提升是在使用明顯更少計(jì)算資源的情況下實(shí)現(xiàn)的——相比于傳統(tǒng)的交替多模態(tài)方法,sCoT只需要約25%的GPU計(jì)算時(shí)間。
這種效率的提升源于sCoT方法的本質(zhì)優(yōu)勢(shì)。傳統(tǒng)方法需要大量高質(zhì)量的多模態(tài)推理數(shù)據(jù)來訓(xùn)練,這種數(shù)據(jù)既稀缺又昂貴。而sCoT主要依賴語言推理數(shù)據(jù),這類數(shù)據(jù)相對(duì)豐富且容易獲得。此外,由于推理過程被簡(jiǎn)化為語言域的操作,整個(gè)訓(xùn)練過程變得更加穩(wěn)定和高效。
研究團(tuán)隊(duì)通過細(xì)致的訓(xùn)練動(dòng)態(tài)分析發(fā)現(xiàn)了一個(gè)有趣的三階段學(xué)習(xí)過程。在第一階段,AI傾向于獨(dú)自解決問題而不調(diào)用子智能體,工具調(diào)用次數(shù)實(shí)際上是下降的。這就像一個(gè)新員工剛開始時(shí)不愿意尋求幫助,試圖自己完成所有工作。在第二階段,AI開始學(xué)會(huì)有效地委派任務(wù),工具調(diào)用次數(shù)上升,性能快速提升。這相當(dāng)于員工學(xué)會(huì)了團(tuán)隊(duì)合作的價(jià)值。在第三階段,AI發(fā)展出了成熟的協(xié)調(diào)策略,能夠根據(jù)任務(wù)復(fù)雜程度靈活調(diào)整調(diào)用策略。
為了驗(yàn)證方法的有效性,研究團(tuán)隊(duì)進(jìn)行了詳盡的消融實(shí)驗(yàn)。他們發(fā)現(xiàn),嚴(yán)格的工具調(diào)用約束對(duì)于系統(tǒng)性能至關(guān)重要。當(dāng)他們放松了對(duì)任務(wù)類型、指令內(nèi)容、或邊界框的限制時(shí),AI的學(xué)習(xí)過程變得不穩(wěn)定,最終性能顯著下降。這證明了設(shè)計(jì)中每個(gè)細(xì)節(jié)的重要性。
研究團(tuán)隊(duì)還探索了不同訓(xùn)練數(shù)據(jù)對(duì)性能的影響。他們發(fā)現(xiàn),高分辨率的細(xì)粒度數(shù)據(jù)和圖表數(shù)據(jù)對(duì)提升視覺推理能力最為有效,而包含過多抽象推理數(shù)據(jù)反而會(huì)干擾模型學(xué)習(xí)視覺定位能力。這個(gè)發(fā)現(xiàn)為后續(xù)的數(shù)據(jù)策略提供了重要指導(dǎo)。
值得一提的是,雖然sCoT主要針對(duì)復(fù)雜的視覺推理任務(wù)進(jìn)行了優(yōu)化,但在基礎(chǔ)視覺能力測(cè)試中,它也表現(xiàn)出了良好的通用性。在物體定位、文字識(shí)別等基礎(chǔ)任務(wù)上,SubagentVL與原始模型相比沒有明顯退化,甚至在減少幻覺方面還有所改善。這表明這種方法不會(huì)以犧牲基礎(chǔ)能力為代價(jià)來提升高級(jí)推理能力。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面的創(chuàng)新。它提供了一種全新的思路來解決AI領(lǐng)域的一個(gè)根本問題:如何讓機(jī)器像人類一樣進(jìn)行復(fù)雜的多步驟推理。sCoT方法的核心智慧在于認(rèn)識(shí)到,復(fù)雜問題的解決不一定需要復(fù)雜的方法,有時(shí)候?qū)?fù)雜性重新組織和分解反而能獲得更好的效果。
從更廣闊的視角來看,這種"自我調(diào)用"的范式可能會(huì)對(duì)整個(gè)AI系統(tǒng)設(shè)計(jì)產(chǎn)生深遠(yuǎn)影響。它展示了如何通過巧妙的任務(wù)分解和協(xié)調(diào)機(jī)制,讓相對(duì)簡(jiǎn)單的組件組合成強(qiáng)大的整體系統(tǒng)。這種思路不僅適用于視覺推理,也可能啟發(fā)其他AI應(yīng)用領(lǐng)域的創(chuàng)新。
對(duì)于普通人來說,這項(xiàng)研究的成果可能會(huì)在不久的將來體現(xiàn)在各種實(shí)際應(yīng)用中。比如更智能的圖片搜索引擎,能夠理解復(fù)雜場(chǎng)景的監(jiān)控系統(tǒng),或者能夠協(xié)助醫(yī)生分析醫(yī)學(xué)影像的AI助手。這些應(yīng)用都需要機(jī)器具備強(qiáng)大的視覺推理能力,而sCoT方法為實(shí)現(xiàn)這些目標(biāo)提供了一條可行且高效的路徑。
研究團(tuán)隊(duì)的工作還展現(xiàn)了中國AI研究的實(shí)力和創(chuàng)新精神。在一個(gè)被國際巨頭主導(dǎo)的領(lǐng)域,中科院團(tuán)隊(duì)能夠提出如此原創(chuàng)性的解決方案,不僅證明了中國學(xué)者的研究水平,也為全球AI發(fā)展貢獻(xiàn)了中國智慧。
這項(xiàng)研究也為AI安全和可解釋性提供了新的思路。由于sCoT方法將復(fù)雜的推理過程分解為一系列明確的子任務(wù),整個(gè)推理過程變得更加透明和可追蹤。我們可以清楚地看到AI是如何一步步得出結(jié)論的,這對(duì)于需要高可信度的應(yīng)用場(chǎng)景具有重要價(jià)值。
總的來說,中科院團(tuán)隊(duì)的這項(xiàng)研究代表了AI視覺推理領(lǐng)域的一個(gè)重要里程碑。它不僅在技術(shù)上實(shí)現(xiàn)了顯著突破,在計(jì)算效率上也達(dá)到了新的高度,更重要的是,它為我們重新思考AI系統(tǒng)設(shè)計(jì)提供了全新的視角。隨著這種方法的進(jìn)一步發(fā)展和完善,我們有理由期待AI在理解和推理視覺信息方面將達(dá)到前所未有的水平,為人類社會(huì)帶來更多實(shí)用且強(qiáng)大的智能工具。
Q&A
Q1:什么是自調(diào)用思維鏈sCoT方法?
A:sCoT是一種新的AI視覺推理方法,它讓一個(gè)主AI將復(fù)雜的看圖任務(wù)分解成簡(jiǎn)單的子任務(wù),然后調(diào)用自己的"分身"來處理這些子任務(wù),最后整合所有結(jié)果。這就像一個(gè)項(xiàng)目經(jīng)理將大項(xiàng)目拆分成小任務(wù),分配給不同的專員處理,但這些專員其實(shí)都是同一個(gè)人的不同角色。
Q2:為什么sCoT方法比傳統(tǒng)方法更高效?
A:傳統(tǒng)方法要求AI同時(shí)處理圖像和文字信息的復(fù)雜交替,就像讓人同時(shí)用左右手畫不同圖形一樣困難。sCoT將這個(gè)過程簡(jiǎn)化為純語言推理,主AI只需要用語言思考"該調(diào)用什么工具",大大降低了學(xué)習(xí)難度,因此只需要傳統(tǒng)方法25%的計(jì)算資源就能達(dá)到更好效果。
Q3:這項(xiàng)技術(shù)會(huì)在哪些場(chǎng)景下應(yīng)用?
A:這項(xiàng)技術(shù)未來可能廣泛應(yīng)用于智能圖片搜索、安防監(jiān)控系統(tǒng)、醫(yī)學(xué)影像分析、自動(dòng)駕駛車輛的環(huán)境理解等領(lǐng)域。任何需要AI深度理解復(fù)雜圖像信息的場(chǎng)景都可能受益,比如幫助盲人理解周圍環(huán)境,或協(xié)助考古學(xué)家分析文物照片等。





京公網(wǎng)安備 11011402013531號(hào)