![]()
這項(xiàng)由韓國(guó)大學(xué)樸藝恩教授、Upstage AI公司鄭敏別研究員和韓國(guó)大學(xué)康在宇教授聯(lián)合完成的研究發(fā)表于2025年1月,論文編號(hào)為arXiv:2509.25758v1。想要深入了解這項(xiàng)研究的讀者可以通過(guò)該編號(hào)查詢完整論文。
當(dāng)我們訓(xùn)練一個(gè)AI模型讓它變得更聰明時(shí),它的"大腦"內(nèi)部到底發(fā)生了什么變化?這個(gè)問(wèn)題就像是想知道一個(gè)學(xué)生從數(shù)學(xué)差生變成數(shù)學(xué)天才的過(guò)程中,他的大腦神經(jīng)連接是如何重新組織的。韓國(guó)研究團(tuán)隊(duì)通過(guò)深入分析大型推理模型的內(nèi)部機(jī)制,首次揭開了AI模型在接受推理訓(xùn)練后內(nèi)部結(jié)構(gòu)的神奇變化。
研究團(tuán)隊(duì)把AI模型的內(nèi)部結(jié)構(gòu)比作一個(gè)復(fù)雜的交響樂(lè)團(tuán),其中每個(gè)"注意力頭"就像是樂(lè)團(tuán)中的不同樂(lè)器。當(dāng)模型接受不同類型的訓(xùn)練時(shí),就像是指揮家在重新編排樂(lè)隊(duì),有些樂(lè)器會(huì)被激活承擔(dān)新的任務(wù),有些會(huì)退居二線,還有一些會(huì)學(xué)會(huì)全新的演奏方式。通過(guò)這種"樂(lè)團(tuán)重組",AI模型獲得了解決復(fù)雜數(shù)學(xué)問(wèn)題的能力。
一、從"普通學(xué)生"到"推理天才":三種訓(xùn)練方式的不同魔法
研究團(tuán)隊(duì)觀察了三種不同的AI訓(xùn)練方式,就像觀察三種不同的教育方法如何培養(yǎng)學(xué)生的數(shù)學(xué)能力。第一種叫做"知識(shí)蒸餾",就像是讓一個(gè)聰明的老師(大型AI模型)手把手教一個(gè)普通學(xué)生(小型AI模型)如何解題。在這個(gè)過(guò)程中,學(xué)生的大腦會(huì)涌現(xiàn)出大量新的"思考回路",這些回路主要分布在大腦的前半部分和中間部分。
第二種訓(xùn)練方式是"監(jiān)督微調(diào)",類似于給學(xué)生提供大量標(biāo)準(zhǔn)答案和解題步驟讓他反復(fù)練習(xí)。研究發(fā)現(xiàn),這種訓(xùn)練方式會(huì)在AI模型的大腦中后部分激活許多新的注意力頭,就像是在大腦的"高級(jí)思維區(qū)域"建立了新的神經(jīng)連接。雖然這種方法能讓AI學(xué)會(huì)復(fù)雜的推理,但也帶來(lái)了一個(gè)有趣的副作用:AI有時(shí)會(huì)過(guò)度思考簡(jiǎn)單問(wèn)題,把原本一步就能解決的算術(shù)題搞得異常復(fù)雜。
第三種最有趣的訓(xùn)練方式叫做"群體相對(duì)策略優(yōu)化",這就像是讓AI在游戲中通過(guò)試錯(cuò)來(lái)學(xué)習(xí),每次做對(duì)了就給獎(jiǎng)勵(lì),做錯(cuò)了就減分。研究團(tuán)隊(duì)發(fā)現(xiàn),這種訓(xùn)練方式產(chǎn)生的變化截然不同:AI的大腦不是一次性安裝很多新的思考回路,而是在訓(xùn)練過(guò)程中不斷地"試用"新的思考方式,保留有效的,淘汰無(wú)用的。這個(gè)過(guò)程就像是AI在進(jìn)行一場(chǎng)內(nèi)部的"思維競(jìng)賽",只有最優(yōu)秀的思考模式才能存活下來(lái)。
二、AI大腦的"思考開關(guān)":想思考時(shí)精準(zhǔn)高效,不想思考時(shí)廣撒網(wǎng)
研究團(tuán)隊(duì)還研究了一種特殊的AI模型,這種模型可以像人類一樣選擇是否要深度思考。當(dāng)AI選擇"開啟思考模式"時(shí),它會(huì)激活一套精簡(jiǎn)而高效的注意力頭,就像是一個(gè)專業(yè)的數(shù)學(xué)家遇到復(fù)雜問(wèn)題時(shí)會(huì)調(diào)動(dòng)特定的思維工具。相反,當(dāng)AI關(guān)閉思考模式時(shí),它會(huì)激活數(shù)量龐大的注意力頭來(lái)彌補(bǔ)思考深度的不足,就像是一個(gè)沒(méi)有專業(yè)工具的人只能用更多的笨方法來(lái)解決同樣的問(wèn)題。
這個(gè)發(fā)現(xiàn)特別有意思,因?yàn)樗沂玖薃I思考的一個(gè)重要原理:深度思考和廣度覆蓋是兩種不同的策略。當(dāng)AI有"思考權(quán)限"時(shí),它會(huì)選擇更精準(zhǔn)、更高效的思維路徑。當(dāng)被限制不能深度思考時(shí),它就只能通過(guò)激活更多的思維回路來(lái)尋找答案,雖然效率較低,但仍然能解決問(wèn)題。
研究人員通過(guò)實(shí)驗(yàn)驗(yàn)證了這一點(diǎn):當(dāng)他們?nèi)藶榈仃P(guān)閉一些"思考模式"下的注意力頭時(shí),AI的推理能力確實(shí)下降了。而當(dāng)他們關(guān)閉一些"非思考模式"下過(guò)度激活的注意力頭時(shí),AI的表現(xiàn)反而有所提升,這說(shuō)明太多的思維回路有時(shí)候會(huì)互相干擾,造成"想太多"的問(wèn)題。
三、推理能力的雙刃劍:聰明了但也容易"想太多"
研究團(tuán)隊(duì)發(fā)現(xiàn)了AI推理訓(xùn)練的一個(gè)有趣矛盾:訓(xùn)練讓AI變得更善于解決復(fù)雜問(wèn)題,但同時(shí)也讓它在簡(jiǎn)單問(wèn)題上變得"想太多"。這就像是培養(yǎng)了一個(gè)數(shù)學(xué)博士,他確實(shí)能解決高難度的數(shù)學(xué)題,但是讓他計(jì)算"2+3"時(shí),他可能會(huì)用微積分的方法來(lái)解決,結(jié)果反而容易出錯(cuò)。
在具體的實(shí)驗(yàn)中,研究團(tuán)隊(duì)觀察到一個(gè)典型案例:對(duì)于一道關(guān)于小女孩阿雅步行時(shí)間的數(shù)學(xué)題,普通的AI模型能夠用簡(jiǎn)單的代碼計(jì)算得出正確答案540。但是經(jīng)過(guò)推理訓(xùn)練的AI模型,雖然在解題思路上更加系統(tǒng)和嚴(yán)謹(jǐn),最終卻因?yàn)橛?jì)算過(guò)程過(guò)于復(fù)雜而得出了錯(cuò)誤答案1134。這個(gè)例子生動(dòng)地說(shuō)明了AI推理訓(xùn)練的雙重性:它賦予了AI更強(qiáng)的邏輯思維能力,但也可能讓AI陷入"過(guò)度工程化"的陷阱。
通過(guò)大量的定量和定性分析,研究團(tuán)隊(duì)發(fā)現(xiàn)這種現(xiàn)象在不同的訓(xùn)練方法中都有體現(xiàn)。監(jiān)督微調(diào)訓(xùn)練出的AI會(huì)把簡(jiǎn)單的代數(shù)運(yùn)算替換成冗長(zhǎng)的理論推導(dǎo),群體策略優(yōu)化訓(xùn)練出的AI則可能在基礎(chǔ)計(jì)算上失去穩(wěn)定性。這種"聰明過(guò)頭"的現(xiàn)象提醒我們,AI的訓(xùn)練需要在復(fù)雜推理能力和基礎(chǔ)計(jì)算可靠性之間找到平衡。
四、從電路分析到性能預(yù)測(cè):解開AI內(nèi)部的"黑箱"
為了深入理解AI模型內(nèi)部的變化,研究團(tuán)隊(duì)開發(fā)了一套"電路分析"方法,就像是給AI的大腦做CT掃描。他們把AI模型的內(nèi)部結(jié)構(gòu)看作一個(gè)由節(jié)點(diǎn)和連接組成的復(fù)雜網(wǎng)絡(luò),每個(gè)注意力頭就是一個(gè)節(jié)點(diǎn),它們之間的信息傳遞就是連接。通過(guò)分析這些連接的強(qiáng)度變化,研究人員能夠準(zhǔn)確識(shí)別出哪些注意力頭是訓(xùn)練后新出現(xiàn)的"推理專家"。
這種分析方法的創(chuàng)新之處在于,它不僅能夠發(fā)現(xiàn)新的注意力頭,還能驗(yàn)證這些頭的功能重要性。研究團(tuán)隊(duì)通過(guò)"外科手術(shù)式"的實(shí)驗(yàn)——即選擇性地關(guān)閉某些注意力頭——來(lái)測(cè)試它們對(duì)AI性能的實(shí)際影響。結(jié)果顯示,關(guān)閉那些新涌現(xiàn)的推理注意力頭確實(shí)會(huì)顯著降低AI在數(shù)學(xué)競(jìng)賽題目上的表現(xiàn),證明了這些新的思維回路確實(shí)承擔(dān)著重要的推理功能。
更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)可以通過(guò)調(diào)節(jié)這些注意力頭的"音量"來(lái)微調(diào)AI的表現(xiàn)。當(dāng)他們把某些推理頭的活躍度調(diào)高1.3倍時(shí),AI在某些類型的數(shù)學(xué)題上表現(xiàn)更好,但在其他類型的題目上可能會(huì)變差。這就像是調(diào)節(jié)樂(lè)隊(duì)中不同樂(lè)器的音量,過(guò)分突出某種樂(lè)器可能會(huì)破壞整體的和諧。
五、訓(xùn)練方式的"個(gè)性差異":每種方法都有自己的特色
通過(guò)對(duì)比不同訓(xùn)練方法產(chǎn)生的注意力頭分布,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的規(guī)律:每種訓(xùn)練方法都會(huì)在AI大腦的不同區(qū)域留下獨(dú)特的"指紋"。知識(shí)蒸餾主要在大腦前半部分和中間部分創(chuàng)造新的連接,監(jiān)督微調(diào)則偏好在后半部分建立復(fù)雜的推理網(wǎng)絡(luò),而群體策略優(yōu)化產(chǎn)生的變化最為靈活和動(dòng)態(tài)。
具體來(lái)看,知識(shí)蒸餾訓(xùn)練產(chǎn)生的AI模型擁有32個(gè)新的推理注意力頭,這些頭主要分布在第5到第7層。監(jiān)督微調(diào)訓(xùn)練產(chǎn)生了34個(gè)新頭,主要集中在第11到第21層的中后段。而群體策略優(yōu)化雖然只產(chǎn)生了19到20個(gè)新頭,但這些頭分散在各個(gè)層次,形成了一個(gè)更加靈活的推理網(wǎng)絡(luò)。
這種差異反映了不同訓(xùn)練哲學(xué)的本質(zhì)區(qū)別。知識(shí)蒸餾是"傳授式"學(xué)習(xí),強(qiáng)調(diào)知識(shí)的準(zhǔn)確傳遞,所以在大腦的"接收和處理"區(qū)域建立連接。監(jiān)督微調(diào)是"練習(xí)式"學(xué)習(xí),強(qiáng)調(diào)熟練掌握解題步驟,所以在"高級(jí)推理"區(qū)域建立連接。群體策略優(yōu)化是"探索式"學(xué)習(xí),強(qiáng)調(diào)適應(yīng)性和效率,所以形成的是分布式的靈活網(wǎng)絡(luò)。
六、訓(xùn)練過(guò)程的"進(jìn)化史":從混沌到秩序的動(dòng)態(tài)過(guò)程
研究團(tuán)隊(duì)通過(guò)跟蹤訓(xùn)練過(guò)程中每個(gè)檢查點(diǎn)的注意力頭變化,繪制出了AI推理能力演化的完整"家譜"。這個(gè)過(guò)程就像觀察一個(gè)生態(tài)系統(tǒng)的演化:在群體策略優(yōu)化訓(xùn)練中,新的注意力頭會(huì)不斷涌現(xiàn),接受"適者生存"的考驗(yàn),只有那些能夠持續(xù)提升AI表現(xiàn)的頭才能存活到最后。
在監(jiān)督微調(diào)訓(xùn)練中,情況則更像是一個(gè)穩(wěn)定的建設(shè)過(guò)程。一旦新的注意力頭在某個(gè)訓(xùn)練步驟中被激活,它們就會(huì)持續(xù)保持活躍狀態(tài)直到訓(xùn)練結(jié)束。這種"一次建立,終身使用"的模式反映了監(jiān)督學(xué)習(xí)的穩(wěn)定性特征。
群體策略優(yōu)化的訓(xùn)練過(guò)程則充滿了戲劇性。研究人員發(fā)現(xiàn),新激活的注意力頭數(shù)量會(huì)隨著訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)信號(hào)波動(dòng)而起伏,就像股市的漲跌曲線。當(dāng)AI在某個(gè)訓(xùn)練步驟中表現(xiàn)良好時(shí),那些對(duì)應(yīng)的注意力頭就更有可能被保留;當(dāng)表現(xiàn)不佳時(shí),一些頭就會(huì)被"裁員"。這種動(dòng)態(tài)調(diào)整機(jī)制使得最終的AI模型雖然注意力頭數(shù)量較少,但每一個(gè)都是經(jīng)過(guò)嚴(yán)格篩選的"精英"。
七、實(shí)戰(zhàn)表現(xiàn):理論與現(xiàn)實(shí)的碰撞
為了驗(yàn)證這些理論發(fā)現(xiàn)的實(shí)際意義,研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)競(jìng)賽基準(zhǔn)測(cè)試中評(píng)估了不同訓(xùn)練方法的效果。結(jié)果顯示,每種訓(xùn)練方法都有自己的強(qiáng)項(xiàng)和弱點(diǎn),就像不同的運(yùn)動(dòng)員擅長(zhǎng)不同的項(xiàng)目。
在美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)這樣的高難度競(jìng)賽中,群體策略優(yōu)化訓(xùn)練的AI表現(xiàn)最為出色,這驗(yàn)證了"精英式"注意力頭的威力。但在一些基礎(chǔ)數(shù)學(xué)任務(wù)中,傳統(tǒng)的基線模型有時(shí)反而表現(xiàn)更穩(wěn)定,這說(shuō)明過(guò)度的推理訓(xùn)練可能會(huì)讓AI"想太多",在簡(jiǎn)單問(wèn)題上反而容易出錯(cuò)。
研究團(tuán)隊(duì)還進(jìn)行了一系列"手術(shù)式"實(shí)驗(yàn):他們選擇性地關(guān)閉不同類型的注意力頭,觀察AI性能的變化。當(dāng)關(guān)閉推理相關(guān)的注意力頭時(shí),AI在復(fù)雜數(shù)學(xué)題上的表現(xiàn)顯著下降,但在一些基礎(chǔ)任務(wù)上的表現(xiàn)可能會(huì)提升。這再次證明了推理能力和基礎(chǔ)計(jì)算能力之間存在某種微妙的平衡關(guān)系。
更有趣的是,當(dāng)研究人員調(diào)節(jié)注意力頭的活躍程度時(shí),他們發(fā)現(xiàn)可以在一定程度上"定制"AI的推理風(fēng)格。增強(qiáng)某些頭的活躍度會(huì)讓AI更傾向于系統(tǒng)性的數(shù)學(xué)推理,而減弱它們則會(huì)讓AI回歸更直覺(jué)化的解題方式。這種發(fā)現(xiàn)為未來(lái)開發(fā)可調(diào)節(jié)推理深度的AI系統(tǒng)提供了重要線索。
說(shuō)到底,這項(xiàng)研究就像是給AI的大腦裝上了透視鏡,讓我們第一次清楚地看到了AI在學(xué)習(xí)推理過(guò)程中內(nèi)部結(jié)構(gòu)的精彩變化。歸根結(jié)底,不同的訓(xùn)練方法就像不同的教育哲學(xué),它們會(huì)在AI的"大腦"中留下截然不同的印記。知識(shí)蒸餾培養(yǎng)出的是善于接受和整合知識(shí)的"好學(xué)生",監(jiān)督微調(diào)培養(yǎng)出的是步驟嚴(yán)謹(jǐn)?shù)?解題機(jī)器",而群體策略優(yōu)化培養(yǎng)出的則是靈活高效的"思維專家"。
這項(xiàng)研究不僅解答了AI訓(xùn)練過(guò)程中的基本科學(xué)問(wèn)題,也為未來(lái)開發(fā)更智能、更可控的AI系統(tǒng)指明了方向。當(dāng)我們知道了AI大腦中哪些部分負(fù)責(zé)什么功能時(shí),就可以更精準(zhǔn)地調(diào)節(jié)和優(yōu)化它們,避免"想太多"的問(wèn)題,在復(fù)雜推理和基礎(chǔ)計(jì)算之間找到最佳平衡點(diǎn)。對(duì)于普通人來(lái)說(shuō),這意味著未來(lái)的AI助手可能會(huì)更加智能和實(shí)用,能夠根據(jù)任務(wù)的復(fù)雜程度自動(dòng)調(diào)節(jié)思考深度,既不會(huì)在簡(jiǎn)單問(wèn)題上浪費(fèi)時(shí)間,也不會(huì)在復(fù)雜問(wèn)題上給出膚淺的答案。
這項(xiàng)研究也提醒我們,AI的"聰明"并不是越多越好,而是需要恰到好處。就像培養(yǎng)孩子一樣,我們需要在鼓勵(lì)深度思考和保持基礎(chǔ)能力之間找到平衡,這樣才能培養(yǎng)出既聰明又實(shí)用的AI伙伴。
Q&A
Q1:注意力頭是什么?它在AI模型中起什么作用?
A:注意力頭可以理解為AI大腦中的"思考小助手",就像交響樂(lè)團(tuán)中的不同樂(lè)器。每個(gè)注意力頭負(fù)責(zé)處理特定類型的信息和執(zhí)行特定的思維任務(wù)。當(dāng)AI接受推理訓(xùn)練后,會(huì)涌現(xiàn)出新的注意力頭來(lái)專門處理復(fù)雜的數(shù)學(xué)推理,這些新的"思考小助手"讓AI獲得了解決復(fù)雜問(wèn)題的能力。
Q2:為什么AI推理訓(xùn)練后會(huì)在簡(jiǎn)單問(wèn)題上出錯(cuò)?
A:這就像培養(yǎng)了一個(gè)數(shù)學(xué)博士,他雖然能解決高難度問(wèn)題,但遇到"2+3"這樣的簡(jiǎn)單題時(shí),可能會(huì)用微積分的方法來(lái)解決,結(jié)果反而容易出錯(cuò)。AI推理訓(xùn)練讓模型學(xué)會(huì)了復(fù)雜的思考方式,但有時(shí)會(huì)過(guò)度使用這些復(fù)雜方法,把簡(jiǎn)單問(wèn)題復(fù)雜化,導(dǎo)致本來(lái)能做對(duì)的題目反而做錯(cuò)了。
Q3:不同的AI訓(xùn)練方法會(huì)產(chǎn)生什么不同的效果?
A:就像不同的教育方法培養(yǎng)出不同類型的學(xué)生。知識(shí)蒸餾像是好老師手把手教學(xué),培養(yǎng)出善于學(xué)習(xí)的"好學(xué)生";監(jiān)督微調(diào)像是大量練習(xí)標(biāo)準(zhǔn)答案,培養(yǎng)出步驟嚴(yán)謹(jǐn)?shù)?解題機(jī)器";群體策略優(yōu)化像是通過(guò)游戲獎(jiǎng)懲來(lái)學(xué)習(xí),培養(yǎng)出靈活高效的"思維專家"。每種方法都會(huì)在AI大腦的不同區(qū)域建立獨(dú)特的思考回路。





京公網(wǎng)安備 11011402013531號(hào)