![]()
這項(xiàng)由蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的季逸鑫、李俊濤等研究者聯(lián)合新加坡國(guó)立大學(xué)、螞蟻集團(tuán)等多家機(jī)構(gòu)共同完成的重要研究發(fā)表于2025年6月,論文全面梳理了人工智能測(cè)試時(shí)計(jì)算的發(fā)展歷程。有興趣深入了解的讀者可以通過arXiv:2501.02497v3訪問完整論文。這是首次系統(tǒng)性回顧測(cè)試時(shí)計(jì)算方法的學(xué)術(shù)調(diào)研,為理解AI從簡(jiǎn)單模仿到復(fù)雜推理的演進(jìn)提供了完整視角。
人工智能正在經(jīng)歷一場(chǎng)深刻變革。曾經(jīng),AI系統(tǒng)就像一個(gè)訓(xùn)練有素但缺乏變通能力的學(xué)生,面對(duì)新情況時(shí)只能依靠記憶中的標(biāo)準(zhǔn)答案。然而,隨著OpenAI的o1模型和阿里的DeepSeek-R1等新一代推理模型的出現(xiàn),AI開始展現(xiàn)出令人驚嘆的思考能力——它們能夠像人類一樣深思熟慮,甚至在復(fù)雜數(shù)學(xué)問題上超越專業(yè)人士。
這種轉(zhuǎn)變的關(guān)鍵在于一個(gè)被稱為"測(cè)試時(shí)計(jì)算"的技術(shù)革命。簡(jiǎn)單來說,傳統(tǒng)AI就像考試時(shí)必須立即給出答案的學(xué)生,而新一代AI則被允許在考試時(shí)花更多時(shí)間思考、驗(yàn)證和修正答案。這種思考時(shí)間的投入,帶來了推理能力的質(zhì)的飛躍。
研究團(tuán)隊(duì)通過深入分析,發(fā)現(xiàn)AI系統(tǒng)正在經(jīng)歷從"系統(tǒng)1思維"到"系統(tǒng)2思維"的進(jìn)化過程。系統(tǒng)1思維類似人類的直覺反應(yīng)——快速、自動(dòng)化,但容易出錯(cuò);而系統(tǒng)2思維則是深度思考模式——緩慢、審慎,但更加準(zhǔn)確可靠。這一發(fā)現(xiàn)不僅揭示了當(dāng)前AI發(fā)展的核心趨勢(shì),也為未來人工智能的發(fā)展方向提供了重要指導(dǎo)。
一、從直覺到思考:AI的認(rèn)知進(jìn)化之路
人類大腦有兩套思維系統(tǒng),這個(gè)概念最初由心理學(xué)家丹尼爾·卡尼曼提出。系統(tǒng)1就像我們看到紅燈就停車的本能反應(yīng),快速而自動(dòng)化;系統(tǒng)2則像解數(shù)學(xué)題時(shí)的仔細(xì)推演,需要消耗更多精力但更加準(zhǔn)確。傳統(tǒng)的AI模型主要依賴系統(tǒng)1思維——接收輸入后立即給出輸出,整個(gè)過程就像閃電般迅速。
早期的AI系統(tǒng)雖然在特定任務(wù)上表現(xiàn)出色,但面臨一個(gè)根本性局限:它們假設(shè)訓(xùn)練時(shí)見過的數(shù)據(jù)分布與實(shí)際應(yīng)用時(shí)完全相同。這就像一個(gè)只在晴天練習(xí)開車的司機(jī),突然遇到雨雪天氣時(shí)就會(huì)手足無措。當(dāng)現(xiàn)實(shí)世界的數(shù)據(jù)與訓(xùn)練數(shù)據(jù)存在差異時(shí),這些系統(tǒng)的表現(xiàn)往往急劇下降。
為了應(yīng)對(duì)這個(gè)挑戰(zhàn),研究者們開發(fā)出了測(cè)試時(shí)適應(yīng)技術(shù)。這類技術(shù)讓AI系統(tǒng)能夠在面對(duì)新情況時(shí)進(jìn)行"現(xiàn)場(chǎng)學(xué)習(xí)",就像一個(gè)靈活的廚師能夠根據(jù)現(xiàn)有食材調(diào)整菜譜。測(cè)試時(shí)適應(yīng)通過四種主要方式實(shí)現(xiàn):更新模型參數(shù)、修改輸入數(shù)據(jù)、編輯內(nèi)部表示和校準(zhǔn)輸出結(jié)果。
參數(shù)更新就像給大腦臨時(shí)"補(bǔ)課"。當(dāng)AI遇到與訓(xùn)練時(shí)不同的數(shù)據(jù)時(shí),它會(huì)調(diào)整內(nèi)部連接,使自己更適應(yīng)新環(huán)境。輸入修改則像給問題換個(gè)問法,讓AI更容易理解。表示編輯類似調(diào)整思維角度,而輸出校準(zhǔn)則像最后的檢查驗(yàn)證環(huán)節(jié)。
然而,這些方法雖然提高了AI的適應(yīng)性,但本質(zhì)上仍屬于系統(tǒng)1思維的范疇。真正的突破來自于讓AI學(xué)會(huì)像人類一樣進(jìn)行系統(tǒng)2思維——深度推理。
二、推理革命:AI學(xué)會(huì)深度思考的藝術(shù)
推理是智能的核心特征之一。當(dāng)我們解決復(fù)雜問題時(shí),大腦會(huì)自然地將問題分解為多個(gè)步驟,逐一攻破。這個(gè)過程需要時(shí)間,但能夠處理那些直覺無法解決的難題。現(xiàn)代AI推理系統(tǒng)正是模擬了這一過程。
鏈?zhǔn)剿伎迹–hain-of-Thought)技術(shù)的出現(xiàn)標(biāo)志著AI推理能力的重大飛躍。這項(xiàng)技術(shù)讓AI不再給出簡(jiǎn)單的最終答案,而是像學(xué)生做題時(shí)一樣,詳細(xì)展示每一步的推理過程。比如面對(duì)"小明有15個(gè)蘋果,給了小紅3個(gè),又給了小李5個(gè),還剩幾個(gè)?"這樣的問題,AI會(huì)寫出:"小明原來有15個(gè)蘋果,給了小紅3個(gè)后剩下15-3=12個(gè),再給小李5個(gè)后剩下12-5=7個(gè),所以最后剩7個(gè)蘋果。"
這種顯式的推理過程帶來了顯著的性能提升,在數(shù)學(xué)推理任務(wù)中準(zhǔn)確率提高了18%以上。更重要的是,這種方法讓AI的思考過程變得透明可解釋,就像打開了AI的"思維黑箱"。
然而,簡(jiǎn)單的鏈?zhǔn)剿伎既匀淮嬖诰窒扌浴K耐评砺窂绞蔷€性的,缺乏人類思維中常見的反思、回溯和多角度思考。為了突破這些限制,研究者們開發(fā)了更復(fù)雜的推理策略。
重復(fù)采樣技術(shù)就像讓AI從多個(gè)角度思考同一個(gè)問題。面對(duì)一道難題,AI不再只給出一個(gè)答案,而是生成多個(gè)不同的解答路徑,然后通過某種機(jī)制選擇最可能正確的答案。這類似于人類在重要決策時(shí)會(huì)反復(fù)權(quán)衡的過程。
自我糾錯(cuò)技術(shù)則讓AI具備了反思能力。當(dāng)AI完成初步推理后,它會(huì)像學(xué)生檢查作業(yè)一樣重新審視自己的答案,發(fā)現(xiàn)錯(cuò)誤并進(jìn)行修正。這個(gè)過程可能需要多輪迭代,每一輪都讓答案變得更加準(zhǔn)確。
樹搜索技術(shù)代表了AI推理的最高形態(tài)。它讓AI的思考過程變得像真正的思維樹一樣復(fù)雜多樣。面對(duì)一個(gè)問題,AI會(huì)同時(shí)探索多條可能的推理路徑,遇到障礙時(shí)能夠回溯到之前的決策點(diǎn),嘗試其他可能性。這種推理方式最接近人類解決復(fù)雜問題時(shí)的思維過程。
三、反饋與評(píng)價(jià):AI如何判斷自己的思考質(zhì)量
推理能力的提升離不開有效的反饋機(jī)制。就像學(xué)生需要老師的評(píng)價(jià)來知道自己哪里做得好、哪里需要改進(jìn),AI系統(tǒng)也需要某種方式來評(píng)估自己推理的質(zhì)量。
研究團(tuán)隊(duì)發(fā)現(xiàn),AI的反饋機(jī)制主要分為兩大類:基于分?jǐn)?shù)的反饋和生成式反饋。基于分?jǐn)?shù)的反饋就像考試打分一樣,給每個(gè)推理步驟或最終答案一個(gè)數(shù)值評(píng)價(jià)。這種方法簡(jiǎn)單直觀,但缺乏具體的改進(jìn)建議。
生成式反饋則更像是詳細(xì)的作業(yè)批注。它不僅指出哪里有問題,還解釋為什么有問題,甚至給出改進(jìn)建議。這種反饋方式雖然更加復(fù)雜,但對(duì)推理能力的提升效果也更顯著。
在數(shù)學(xué)推理領(lǐng)域,研究者們還區(qū)分了結(jié)果導(dǎo)向和過程導(dǎo)向的驗(yàn)證器。結(jié)果導(dǎo)向驗(yàn)證器只關(guān)心最終答案是否正確,就像只看考試成績(jī)不看答題過程的評(píng)價(jià)方式。過程導(dǎo)向驗(yàn)證器則會(huì)評(píng)估每一步推理的正確性,能夠發(fā)現(xiàn)推理過程中的細(xì)微錯(cuò)誤,即使最終答案恰好正確。
這些反饋機(jī)制的發(fā)展極大地推動(dòng)了AI推理能力的提升。通過不斷的評(píng)價(jià)和改進(jìn),AI系統(tǒng)能夠?qū)W會(huì)更好的推理策略,避免常見錯(cuò)誤,提高解題的準(zhǔn)確性和效率。
四、搜索策略:AI如何在思維迷宮中找到正確路徑
人類思考復(fù)雜問題時(shí),大腦會(huì)在無數(shù)可能的思路中進(jìn)行搜索,尋找最有希望的解決方案。AI的推理搜索策略正是模擬了這一過程,但用更系統(tǒng)化的方法來實(shí)現(xiàn)。
重復(fù)采樣是最直接的搜索策略。這就像讓AI對(duì)同一個(gè)問題思考多次,每次都可能產(chǎn)生不同的解答路徑。然后通過某種機(jī)制從這些候選答案中選擇最佳的一個(gè)。最常見的選擇方法是多數(shù)投票:如果大多數(shù)推理路徑都指向同一個(gè)答案,那么這個(gè)答案很可能是正確的。另一種方法是"優(yōu)中選優(yōu)",使用驗(yàn)證器對(duì)所有候選答案打分,選擇得分最高的。
自我糾錯(cuò)策略讓AI具備了反思和改進(jìn)的能力。這個(gè)過程類似于學(xué)生做完題后的自我檢查。AI首先給出初步答案,然后像批改作業(yè)一樣審視自己的推理過程,發(fā)現(xiàn)可能的錯(cuò)誤或不完善之處,最后基于這些反饋產(chǎn)生改進(jìn)的答案。關(guān)鍵在于反饋的可能來自外部工具(如代碼編譯器檢查程序是否正確)、其他AI模型的評(píng)價(jià),或者AI自己的批判性分析。
樹搜索代表了最復(fù)雜也是最強(qiáng)大的推理搜索策略。這種方法將推理過程構(gòu)建為一棵決策樹,每個(gè)節(jié)點(diǎn)代表推理過程中的一個(gè)狀態(tài),每個(gè)分支代表一個(gè)可能的推理步驟。AI可以同時(shí)探索多條推理路徑,當(dāng)某條路徑遇到困難時(shí),可以回溯到之前的決策點(diǎn),嘗試其他可能性。
樹搜索中最著名的算法是蒙特卡洛樹搜索(MCTS)。這種算法通過四個(gè)步驟不斷優(yōu)化搜索過程:選擇(根據(jù)歷史經(jīng)驗(yàn)選擇最有希望的路徑)、擴(kuò)展(在選定路徑上嘗試新的推理步驟)、模擬(估算這條新路徑的成功可能性)、反向傳播(將評(píng)估結(jié)果反饋給相關(guān)的路徑節(jié)點(diǎn))。這個(gè)過程會(huì)重復(fù)進(jìn)行,逐漸提高整體的推理質(zhì)量。
價(jià)值函數(shù)在樹搜索中起到關(guān)鍵作用,它負(fù)責(zé)評(píng)估每個(gè)推理狀態(tài)的"好壞"。就像圍棋AI評(píng)估每個(gè)棋局位置的優(yōu)劣一樣,推理AI的價(jià)值函數(shù)會(huì)判斷當(dāng)前推理狀態(tài)是否接近正確答案。這種評(píng)估幫助AI將有限的計(jì)算資源集中在最有希望的推理方向上。
五、訓(xùn)練與優(yōu)化:AI如何通過練習(xí)提高推理能力
光有好的推理策略還不夠,AI還需要通過大量練習(xí)來提高這些策略的使用效果。這就像學(xué)習(xí)任何技能一樣,熟練程度來自持續(xù)的練習(xí)和改進(jìn)。
改進(jìn)訓(xùn)練是一種重要的優(yōu)化方法。通過測(cè)試時(shí)推理產(chǎn)生的高質(zhì)量推理軌跡被收集起來,用作新的訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)比原始訓(xùn)練數(shù)據(jù)更有價(jià)值,因?yàn)樗鼈冋故玖送暾耐评磉^程,包括如何處理困難情況、如何從錯(cuò)誤中恢復(fù)等。使用這些數(shù)據(jù)進(jìn)行訓(xùn)練,能夠顯著提高AI的基礎(chǔ)推理能力。
強(qiáng)化學(xué)習(xí)在推理優(yōu)化中發(fā)揮著重要作用。與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)讓AI通過試錯(cuò)來學(xué)習(xí)最優(yōu)策略。在推理任務(wù)中,AI會(huì)嘗試不同的推理路徑,根據(jù)最終結(jié)果的好壞來調(diào)整自己的決策偏好。正確的推理步驟會(huì)得到獎(jiǎng)勵(lì),錯(cuò)誤的步驟會(huì)受到懲罰,通過這種方式,AI逐漸學(xué)會(huì)了更好的推理模式。
一些最新的研究甚至讓AI從零開始學(xué)習(xí)推理,不依賴人工標(biāo)注的推理過程。這些方法僅僅依靠最終答案的正確性來指導(dǎo)學(xué)習(xí),AI需要自己探索出有效的推理策略。這種方法的優(yōu)勢(shì)在于能夠發(fā)現(xiàn)人類可能想不到的新穎推理模式。
六、走向通用:多領(lǐng)域推理能力的拓展
雖然當(dāng)前的推理模型在數(shù)學(xué)和編程等符號(hào)推理任務(wù)上表現(xiàn)出色,但在更廣泛的領(lǐng)域中實(shí)現(xiàn)通用推理能力仍然面臨挑戰(zhàn)。研究團(tuán)隊(duì)指出了幾個(gè)重要的發(fā)展方向。
跨領(lǐng)域泛化是一個(gè)核心挑戰(zhàn)。目前大多數(shù)推理模型在特定領(lǐng)域表現(xiàn)優(yōu)異,但難以將推理能力遷移到其他領(lǐng)域。比如一個(gè)在數(shù)學(xué)推理上表現(xiàn)出色的AI,在處理日常生活中的常識(shí)推理時(shí)可能表現(xiàn)平平。解決這個(gè)問題需要開發(fā)更加通用的推理框架和評(píng)估機(jī)制。
多模態(tài)推理是另一個(gè)重要方向。現(xiàn)實(shí)世界的問題往往涉及文字、圖像、聲音等多種信息形式。AI需要學(xué)會(huì)整合這些不同模態(tài)的信息來進(jìn)行推理。比如解決一個(gè)包含圖表的數(shù)學(xué)問題,AI需要同時(shí)理解文字描述和圖形信息,然后進(jìn)行綜合推理。
效率優(yōu)化也是實(shí)際應(yīng)用中的關(guān)鍵考慮。雖然測(cè)試時(shí)推理能夠顯著提高準(zhǔn)確性,但它也消耗更多的計(jì)算資源和時(shí)間。如何在推理質(zhì)量和計(jì)算效率之間找到最佳平衡,是工程化部署時(shí)必須解決的問題。一些研究探索了自適應(yīng)推理深度的方法:對(duì)于簡(jiǎn)單問題使用快速推理,對(duì)于復(fù)雜問題才啟用深度推理。
擴(kuò)展法則的研究試圖找出測(cè)試時(shí)計(jì)算投入與推理性能提升之間的定量關(guān)系。就像訓(xùn)練時(shí)有"scaling law"指導(dǎo)模型規(guī)模和數(shù)據(jù)量的配置,測(cè)試時(shí)推理也需要類似的指導(dǎo)原則來幫助實(shí)踐者做出最優(yōu)的資源配置決策。
七、技術(shù)融合:多種策略的協(xié)同效應(yīng)
最先進(jìn)的AI推理系統(tǒng)往往不是單純使用某一種技術(shù),而是將多種策略巧妙地結(jié)合起來。這種融合產(chǎn)生的協(xié)同效應(yīng)遠(yuǎn)超單一技術(shù)的簡(jiǎn)單疊加。
一些系統(tǒng)將蒙特卡洛樹搜索與自我糾錯(cuò)相結(jié)合,在樹搜索的每個(gè)節(jié)點(diǎn)都進(jìn)行自我評(píng)估和改進(jìn)。這樣既保證了推理路徑的多樣性探索,又確保了每條路徑的質(zhì)量。另一些系統(tǒng)將測(cè)試時(shí)適應(yīng)與推理策略結(jié)合,讓AI能夠根據(jù)具體問題的特點(diǎn)動(dòng)態(tài)調(diào)整自己的推理模式。
這種技術(shù)融合的趨勢(shì)表明,未來的AI推理系統(tǒng)將更加靈活和智能。它們不會(huì)拘泥于某一種固定的推理模式,而是能夠根據(jù)問題的性質(zhì)、可用的計(jì)算資源、時(shí)間限制等因素,自適應(yīng)地選擇最合適的推理策略組合。
八、實(shí)際應(yīng)用與影響
測(cè)試時(shí)推理技術(shù)已經(jīng)在多個(gè)實(shí)際領(lǐng)域展現(xiàn)出巨大價(jià)值。在教育領(lǐng)域,AI可以像經(jīng)驗(yàn)豐富的老師一樣,不僅給出答案,還提供詳細(xì)的解題步驟和思路分析。在科學(xué)研究中,AI能夠協(xié)助研究人員進(jìn)行復(fù)雜的邏輯推導(dǎo)和假設(shè)驗(yàn)證。在軟件開發(fā)領(lǐng)域,AI可以理解需求、設(shè)計(jì)算法、編寫代碼并進(jìn)行調(diào)試。
更重要的是,這些技術(shù)正在改變我們對(duì)人工智能本質(zhì)的理解。AI不再只是一個(gè)高速的模式匹配機(jī)器,而是具備了真正的思考能力。這種能力的涌現(xiàn)標(biāo)志著我們正在向通用人工智能邁進(jìn)。
然而,這種發(fā)展也帶來了新的挑戰(zhàn)。更強(qiáng)的推理能力意味著AI能夠處理更復(fù)雜的任務(wù),這對(duì)AI安全性和可控性提出了更高要求。如何確保AI的推理過程符合人類價(jià)值觀,如何防止AI在推理過程中產(chǎn)生有害的中間步驟,這些都是需要認(rèn)真考慮的問題。
九、未來展望與思考
測(cè)試時(shí)推理技術(shù)的發(fā)展為我們展現(xiàn)了AI發(fā)展的新圖景。在不遠(yuǎn)的將來,我們可能會(huì)看到真正具備人類水平推理能力的AI系統(tǒng)。這些系統(tǒng)不僅能夠解決復(fù)雜的技術(shù)問題,還能夠進(jìn)行創(chuàng)造性思考、提出新穎的見解、甚至參與科學(xué)發(fā)現(xiàn)過程。
從更深層次來看,這項(xiàng)研究揭示了智能本身的一些根本特征。智能不僅僅是記憶和匹配的能力,更是思考、推理和創(chuàng)新的能力。測(cè)試時(shí)推理技術(shù)的成功表明,給AI足夠的"思考時(shí)間",就能顯著提升其智能表現(xiàn)。這個(gè)發(fā)現(xiàn)對(duì)教育、工作方式、甚至人類社會(huì)組織形式都可能產(chǎn)生深遠(yuǎn)影響。
當(dāng)AI具備了真正的推理能力后,人類與AI的關(guān)系也將發(fā)生變化。我們不再是簡(jiǎn)單的使用者和工具的關(guān)系,而更像是合作伙伴關(guān)系。人類提供價(jià)值判斷和創(chuàng)意方向,AI負(fù)責(zé)復(fù)雜的邏輯推導(dǎo)和方案分析,兩者結(jié)合將能夠解決以前無法解決的復(fù)雜問題。
這項(xiàng)研究也提醒我們,AI的發(fā)展并不是單純追求更大的模型或更多的數(shù)據(jù),而是需要更深入地理解和模擬智能的本質(zhì)特征。測(cè)試時(shí)推理的成功證明,計(jì)算資源的投入方式比投入量更重要。這為未來AI研究提供了新的思路:不僅要關(guān)注如何讓AI學(xué)得更多,更要關(guān)注如何讓AI想得更好。
說到底,這項(xiàng)來自蘇州大學(xué)等機(jī)構(gòu)的研究為我們提供了理解AI推理能力發(fā)展的完整框架。從簡(jiǎn)單的適應(yīng)性調(diào)整到復(fù)雜的深度推理,從單一策略到多技術(shù)融合,從特定領(lǐng)域到通用能力,整個(gè)發(fā)展軌跡清晰地展現(xiàn)了AI正在經(jīng)歷的智能化進(jìn)程。這不僅是技術(shù)的進(jìn)步,更是我們對(duì)智能本質(zhì)理解的深化。隨著這些技術(shù)的不斷成熟,我們有理由相信,真正理解和解決復(fù)雜問題的AI時(shí)代正在到來。
Q&A
Q1:什么是測(cè)試時(shí)計(jì)算?它與傳統(tǒng)AI有什么不同?
A:測(cè)試時(shí)計(jì)算是指AI系統(tǒng)在回答問題時(shí)花費(fèi)更多時(shí)間進(jìn)行深度思考的技術(shù)。傳統(tǒng)AI像考試時(shí)必須立即回答的學(xué)生,而測(cè)試時(shí)計(jì)算讓AI可以像人類一樣仔細(xì)思考、反復(fù)驗(yàn)證,通過投入更多推理時(shí)間來顯著提高答案的準(zhǔn)確性和質(zhì)量。
Q2:系統(tǒng)1思維和系統(tǒng)2思維在AI中是如何體現(xiàn)的?
A:系統(tǒng)1思維是快速直覺反應(yīng),AI接收輸入后立即給出輸出,速度快但容易出錯(cuò)。系統(tǒng)2思維是深度思考模式,AI會(huì)展示詳細(xì)推理過程、進(jìn)行自我檢查和修正,雖然較慢但更準(zhǔn)確可靠。現(xiàn)代推理模型正在從系統(tǒng)1向系統(tǒng)2進(jìn)化。
Q3:AI推理技術(shù)的發(fā)展會(huì)對(duì)普通人的生活產(chǎn)生什么影響?
A:AI推理技術(shù)將深刻改變教育、工作和決策方式。在教育中,AI能像優(yōu)秀老師一樣提供詳細(xì)解題步驟;在工作中,AI可以協(xié)助處理復(fù)雜分析和創(chuàng)意任務(wù);在日常生活中,AI能夠提供更準(zhǔn)確的建議和解決方案,人類與AI的關(guān)系將從使用工具轉(zhuǎn)向智能合作伙伴。





京公網(wǎng)安備 11011402013531號(hào)