![]()
這項(xiàng)由Ubiquant公司研究團(tuán)隊(duì)完成的突破性研究發(fā)表于2025年12月16日的arXiv預(yù)印本平臺(tái)(編號(hào):arXiv:2512.14693v1),論文作者包括高子天、陳林霞、肖義豪、邢賀、陶然、羅浩明、周喬伊和戴布賴(lài)恩等研究者。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文。
當(dāng)我們解決復(fù)雜數(shù)學(xué)題時(shí),往往需要反復(fù)思考、修正錯(cuò)誤、重新嘗試,這個(gè)循環(huán)過(guò)程正是人類(lèi)智慧的體現(xiàn)。而現(xiàn)在,Ubiquant的研究團(tuán)隊(duì)成功讓人工智能也學(xué)會(huì)了這種"反復(fù)琢磨"的思考方式,創(chuàng)造出了一個(gè)名為通用推理模型(Universal Reasoning Model,簡(jiǎn)稱(chēng)URM)的AI系統(tǒng)。
這個(gè)系統(tǒng)在目前最具挑戰(zhàn)性的AI推理測(cè)試——ARC-AGI測(cè)試中取得了令人矚目的成績(jī)。如果把這個(gè)測(cè)試比作AI界的高考,那么URM在ARC-AGI 1版本中達(dá)到了53.8%的正確率,在更困難的ARC-AGI 2版本中也獲得了16.0%的正確率。這些數(shù)字看起來(lái)可能不算驚人,但要知道,這些測(cè)試題目連很多聰明的人類(lèi)都覺(jué)得頭疼,而且URM還在數(shù)獨(dú)游戲中達(dá)到了77.6%的準(zhǔn)確率,證明了它確實(shí)具備了某種接近人類(lèi)的推理能力。
研究團(tuán)隊(duì)深入剖析了為什么有些AI模型在復(fù)雜推理任務(wù)上表現(xiàn)突出,他們發(fā)現(xiàn)關(guān)鍵并不在于模型有多么復(fù)雜的架構(gòu)設(shè)計(jì),而在于一種被稱(chēng)為"循環(huán)歸納偏置"的機(jī)制。簡(jiǎn)單來(lái)說(shuō),就像我們做難題時(shí)會(huì)反復(fù)思考一樣,這些優(yōu)秀的AI模型也會(huì)對(duì)同一個(gè)問(wèn)題進(jìn)行多輪處理,每一輪都能讓答案變得更加精確。
一、什么是通用變換器?為什么循環(huán)思考如此重要?
要理解URM的工作原理,我們首先需要了解它的基礎(chǔ)——通用變換器(Universal Transformer)。如果把傳統(tǒng)的AI模型比作流水線工廠,那么每個(gè)工作站點(diǎn)都有專(zhuān)門(mén)的工人負(fù)責(zé)特定任務(wù),產(chǎn)品從第一個(gè)工作站依次傳遞到最后一個(gè)工作站完成生產(chǎn)。這種方式效率很高,但缺乏靈活性。
而通用變換器更像是一個(gè)熟練的工匠作坊,只有一個(gè)萬(wàn)能工匠,但他可以對(duì)同一件作品進(jìn)行反復(fù)加工和完善。工匠會(huì)拿起一件半成品,仔細(xì)檢查、修改、改進(jìn),然后再次檢查這個(gè)改進(jìn)后的版本,如此循環(huán)往復(fù),直到作品達(dá)到滿(mǎn)意的質(zhì)量。這個(gè)"反復(fù)加工"的過(guò)程就是循環(huán)計(jì)算,而"萬(wàn)能工匠"就是參數(shù)共享機(jī)制。
研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)證實(shí)了一個(gè)重要發(fā)現(xiàn):那些在復(fù)雜推理任務(wù)上表現(xiàn)優(yōu)異的AI模型,其成功的秘訣主要來(lái)自于這種循環(huán)處理機(jī)制,而不是復(fù)雜的模型架構(gòu)。就像解數(shù)學(xué)題一樣,關(guān)鍵不在于你用了多少種不同的方法,而在于你是否愿意反復(fù)檢查和改進(jìn)你的答案。
為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)對(duì)比實(shí)驗(yàn)。他們比較了傳統(tǒng)變換器和通用變換器在相同計(jì)算資源下的表現(xiàn)。結(jié)果顯示,即使傳統(tǒng)變換器使用了32倍的參數(shù)量,在ARC-AGI測(cè)試中的正確率也只有23.75%,而參數(shù)量少得多的通用變換器卻能達(dá)到40.0%的正確率。這就像是用復(fù)雜昂貴的機(jī)器生產(chǎn)的產(chǎn)品,質(zhì)量反而不如經(jīng)驗(yàn)豐富的手工藝人精心制作的作品。
二、URM的創(chuàng)新:短卷積模塊讓思考更加細(xì)致
雖然循環(huán)處理是關(guān)鍵,但研究團(tuán)隊(duì)發(fā)現(xiàn)還有改進(jìn)空間。他們注意到,在人類(lèi)思考過(guò)程中,我們不僅會(huì)反復(fù)思考整體問(wèn)題,還會(huì)特別關(guān)注細(xì)節(jié)之間的關(guān)系。比如在解決視覺(jué)推理題目時(shí),我們會(huì)仔細(xì)觀察相鄰圖案之間的關(guān)系,尋找局部規(guī)律。
基于這個(gè)觀察,研究團(tuán)隊(duì)為URM增加了一個(gè)名為ConvSwiGLU的短卷積模塊。如果把原來(lái)的處理方式比作用放大鏡逐個(gè)檢查每個(gè)部件,那么加入短卷積模塊后,AI就像戴上了特殊的眼鏡,能夠同時(shí)看清楚相鄰部件之間的微妙關(guān)系。
這個(gè)改進(jìn)看似微小,但效果顯著。在ARC-AGI測(cè)試中,加入短卷積模塊后的模型正確率從45.3%提升到了53.8%,提升幅度相當(dāng)可觀。研究團(tuán)隊(duì)還發(fā)現(xiàn),這個(gè)模塊最好放置在模型的非線性處理部分,也就是說(shuō),在AI已經(jīng)對(duì)信息進(jìn)行初步加工之后,再讓它關(guān)注局部細(xì)節(jié)關(guān)系,效果最佳。
三、截?cái)喾聪騻鞑ィ罕苊?想太多"的困擾
當(dāng)AI模型進(jìn)行太多輪循環(huán)思考時(shí),就會(huì)出現(xiàn)一個(gè)有趣的現(xiàn)象,類(lèi)似于人類(lèi)"想太多"的情況。就像我們解題時(shí)如果反復(fù)糾結(jié)于前面的步驟,可能會(huì)影響整體的思考效率,甚至產(chǎn)生負(fù)面影響。
研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)模型進(jìn)行8輪循環(huán)處理時(shí),如果讓所有8輪都參與學(xué)習(xí)過(guò)程的反饋調(diào)整,效果反而不如只讓后面6輪參與調(diào)整。這就像是告訴AI:"前面兩輪的思考就當(dāng)作熱身,不用太在意對(duì)錯(cuò),從第三輪開(kāi)始才認(rèn)真計(jì)分。"
這種被稱(chēng)為截?cái)喾聪騻鞑サ募夹g(shù),讓模型在保持循環(huán)思考優(yōu)勢(shì)的同時(shí),避免了過(guò)度糾結(jié)早期步驟的問(wèn)題。實(shí)驗(yàn)結(jié)果顯示,采用這種方法后,模型在ARC-AGI測(cè)試中的正確率從36.25%提升到了39.13%,證明了這種"適度放松"策略的有效性。
四、非線性能力是推理的核心
研究團(tuán)隊(duì)還做了一個(gè)有趣的實(shí)驗(yàn),逐步削弱模型的非線性處理能力,觀察推理性能的變化。結(jié)果令人印象深刻:隨著非線性能力的減弱,模型的推理表現(xiàn)呈現(xiàn)出明顯的下降趨勢(shì)。
具體來(lái)說(shuō),當(dāng)他們將高級(jí)的SwiGLU激活函數(shù)替換為簡(jiǎn)單的SiLU時(shí),模型正確率從53.75%下降到29.75%。而當(dāng)進(jìn)一步簡(jiǎn)化為更基礎(chǔ)的ReLU函數(shù)時(shí),正確率繼續(xù)下降到28.63%。最極端的情況是完全移除注意力機(jī)制中的softmax函數(shù),這時(shí)模型幾乎完全失去了推理能力,正確率跌至僅有2.00%。
這個(gè)實(shí)驗(yàn)揭示了一個(gè)重要真相:復(fù)雜推理任務(wù)需要強(qiáng)大的非線性處理能力。就像烹飪需要各種調(diào)料來(lái)創(chuàng)造豐富的口感一樣,AI推理也需要多樣化的非線性變換來(lái)處理復(fù)雜的邏輯關(guān)系。這解釋了為什么URM要特別強(qiáng)化非線性組件,以及為什么短卷積模塊能夠帶來(lái)顯著改善。
五、優(yōu)化器選擇:訓(xùn)練效率的提升
在實(shí)際訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)還比較了不同優(yōu)化算法的效果。他們發(fā)現(xiàn),使用名為Muon的先進(jìn)優(yōu)化器比傳統(tǒng)的Adam優(yōu)化器能夠更快地達(dá)到相同的性能水平。在ARC-AGI 2測(cè)試中,Muon優(yōu)化器只需要大約60萬(wàn)次訓(xùn)練步驟就能達(dá)到11.5%的正確率,而Adam優(yōu)化器需要超過(guò)130萬(wàn)次步驟才能達(dá)到同樣水平,訓(xùn)練速度幾乎快了一倍。
不過(guò)有趣的是,雖然Muon優(yōu)化器能讓模型更快地學(xué)會(huì)推理技巧,但最終兩種優(yōu)化器訓(xùn)練出的模型性能相當(dāng)。這說(shuō)明優(yōu)化器主要影響的是學(xué)習(xí)效率,而不是模型的最終能力上限。
六、與其他模型的全面對(duì)比
為了充分驗(yàn)證URM的優(yōu)勢(shì),研究團(tuán)隊(duì)將其與目前最先進(jìn)的同類(lèi)模型進(jìn)行了全面對(duì)比。在ARC-AGI 1測(cè)試中,URM的53.8%正確率遠(yuǎn)超TRM模型的40.0%和HRM模型的34.4%。在更具挑戰(zhàn)性的ARC-AGI 2測(cè)試中,URM的16.0%正確率幾乎是HRM的三倍,是TRM的兩倍多。
這些對(duì)比不僅體現(xiàn)在單次嘗試的正確率上,當(dāng)允許模型進(jìn)行多次嘗試時(shí),URM的優(yōu)勢(shì)更加明顯。比如在ARC-AGI 1測(cè)試中,當(dāng)允許1000次嘗試時(shí),URM的成功率能達(dá)到85.1%,而TRM和HRM分別只有64.4%和60.5%。這說(shuō)明URM不僅在首次嘗試時(shí)表現(xiàn)優(yōu)異,而且具有更強(qiáng)的"舉一反三"能力,能夠通過(guò)多樣化的嘗試找到正確答案。
七、技術(shù)實(shí)現(xiàn)的精妙之處
URM的技術(shù)架構(gòu)雖然聽(tīng)起來(lái)復(fù)雜,但核心思想相當(dāng)直觀。整個(gè)系統(tǒng)可以想象成一個(gè)既有固定流程又有循環(huán)改進(jìn)的智能工廠。固定流程部分負(fù)責(zé)基礎(chǔ)的信息處理,就像流水線上的標(biāo)準(zhǔn)操作。而循環(huán)改進(jìn)部分則像是質(zhì)檢環(huán)節(jié),會(huì)反復(fù)檢查和優(yōu)化產(chǎn)品質(zhì)量。
在循環(huán)處理的每一輪中,模型都會(huì)運(yùn)用注意力機(jī)制來(lái)重新審視問(wèn)題的各個(gè)方面,然后通過(guò)包含短卷積的前饋網(wǎng)絡(luò)來(lái)細(xì)化理解。這個(gè)過(guò)程會(huì)重復(fù)多次,每一次都在前一次的基礎(chǔ)上進(jìn)一步改進(jìn)。最終,模型會(huì)運(yùn)用自適應(yīng)計(jì)算時(shí)間機(jī)制,根據(jù)問(wèn)題的復(fù)雜程度自動(dòng)決定需要多少輪循環(huán)處理。
短卷積模塊的加入特別巧妙。它不是簡(jiǎn)單地增加模型復(fù)雜度,而是專(zhuān)門(mén)針對(duì)相鄰信息的關(guān)系建模。研究團(tuán)隊(duì)通過(guò)仔細(xì)實(shí)驗(yàn)發(fā)現(xiàn),將這個(gè)模塊放在前饋網(wǎng)絡(luò)的特定位置效果最佳,這就像在合適的時(shí)機(jī)加入合適的調(diào)料,能夠顯著提升整道菜的味道。
八、實(shí)際應(yīng)用的廣闊前景
雖然URM目前主要在學(xué)術(shù)測(cè)試中展現(xiàn)優(yōu)勢(shì),但它的核心技術(shù)具有廣闊的應(yīng)用前景。循環(huán)推理機(jī)制可以應(yīng)用于任何需要多步驟邏輯分析的場(chǎng)景,比如醫(yī)療診斷、法律推理、工程設(shè)計(jì)等領(lǐng)域。
在醫(yī)療診斷中,醫(yī)生通常需要綜合考慮患者的各種癥狀、檢查結(jié)果和病史信息,然后反復(fù)推理得出診斷結(jié)論。URM的循環(huán)推理能力可以幫助AI系統(tǒng)模擬這種診斷過(guò)程,提高診斷的準(zhǔn)確性和可靠性。
在工程設(shè)計(jì)領(lǐng)域,設(shè)計(jì)師經(jīng)常需要在多個(gè)約束條件之間尋找平衡,反復(fù)調(diào)整設(shè)計(jì)方案直到滿(mǎn)足所有要求。URM的這種反復(fù)優(yōu)化機(jī)制正好契合這類(lèi)需求,可以幫助自動(dòng)化設(shè)計(jì)系統(tǒng)生成更優(yōu)的解決方案。
研究團(tuán)隊(duì)特別強(qiáng)調(diào),URM的優(yōu)勢(shì)不僅在于最終性能,還在于其參數(shù)效率。相比需要巨大參數(shù)量的大型語(yǔ)言模型,URM用相對(duì)較少的參數(shù)就能實(shí)現(xiàn)強(qiáng)大的推理能力,這使得它更適合在資源受限的環(huán)境中部署,比如移動(dòng)設(shè)備或邊緣計(jì)算場(chǎng)景。
歸根結(jié)底,這項(xiàng)研究揭示了一個(gè)重要原理:在人工智能的推理任務(wù)中,"如何思考"比"知道多少"可能更加重要。URM通過(guò)模擬人類(lèi)的循環(huán)思考過(guò)程,在復(fù)雜推理任務(wù)上取得了顯著突破。雖然目前的測(cè)試成績(jī)距離人類(lèi)水平還有差距,但這種方法為AI推理能力的進(jìn)一步提升指明了明確方向。
更重要的是,這項(xiàng)研究證明了一個(gè)令人鼓舞的觀點(diǎn):我們不一定需要更大、更復(fù)雜的模型來(lái)提升AI的智能水平,而是需要更好地理解和模擬人類(lèi)思維的本質(zhì)特征。當(dāng)AI學(xué)會(huì)了像人類(lèi)一樣反復(fù)思考、注重細(xì)節(jié)、適度放松時(shí),它就能在復(fù)雜推理任務(wù)中展現(xiàn)出接近甚至超越人類(lèi)的能力。這為未來(lái)AI技術(shù)的發(fā)展提供了全新的思路和可能性,也讓我們對(duì)真正智能的人工智能充滿(mǎn)期待。
Q&A
Q1:通用推理模型URM與傳統(tǒng)AI模型有什么區(qū)別?
A:URM最大的特點(diǎn)是采用循環(huán)思考機(jī)制,就像人類(lèi)解難題時(shí)會(huì)反復(fù)思考一樣。傳統(tǒng)AI模型更像流水線,信息只處理一遍就輸出結(jié)果,而URM會(huì)對(duì)同一個(gè)問(wèn)題進(jìn)行多輪循環(huán)處理,每一輪都能讓答案更精確。這種設(shè)計(jì)讓URM在復(fù)雜推理任務(wù)上表現(xiàn)更好,用更少的參數(shù)就能達(dá)到更高的準(zhǔn)確率。
Q2:URM在ARC-AGI測(cè)試中的53.8%正確率意味著什么?
A:ARC-AGI被認(rèn)為是目前最具挑戰(zhàn)性的AI推理測(cè)試,連很多聰明的人類(lèi)都覺(jué)得困難。URM在ARC-AGI 1中達(dá)到53.8%的正確率,遠(yuǎn)超其他先進(jìn)模型,這表明它具備了接近人類(lèi)水平的抽象推理能力。更重要的是,當(dāng)允許多次嘗試時(shí),URM的成功率能達(dá)到85%以上,顯示出強(qiáng)大的問(wèn)題解決潛力。
Q3:URM技術(shù)能應(yīng)用到哪些實(shí)際場(chǎng)景中?
A:URM的循環(huán)推理機(jī)制可以應(yīng)用于任何需要多步驟邏輯分析的領(lǐng)域。比如醫(yī)療診斷中,可以幫助AI模擬醫(yī)生反復(fù)分析癥狀的過(guò)程;在工程設(shè)計(jì)中,可以幫助系統(tǒng)在多個(gè)約束條件間尋找最優(yōu)解;在法律推理中,可以輔助分析復(fù)雜案例。由于URM參數(shù)效率高,還特別適合在手機(jī)等移動(dòng)設(shè)備上部署。





京公網(wǎng)安備 11011402013531號(hào)