![]()
這項由北京大學心理與認知科學學院方方教授和王謙教授共同領導的研究,發表于2025年神經信息處理系統大會(NeurIPS 2025),論文編號為arXiv:2510.13255v1。研究團隊還包括來自浙江大學、北京語言大學和北京通用人工智能研究院的多位學者,他們開發了一種名為"層次頻率標記探針"(HFTP)的創新方法,用于研究大語言模型和人腦在處理語法結構時的相似性。
說到語言,我們每天都在用,但很少有人深入思考過我們的大腦是如何理解一句話的結構的。比如當你聽到"老師在教室里給學生講課"這句話時,你的大腦能瞬間理解"老師"是主語,"講課"是謂語,而且還能知道這是一個完整的句子。同樣,當我們使用ChatGPT或其他大語言模型時,它們也能理解并生成語法正確的句子。這就引出了一個有趣的問題:這些人工智能模型處理語法的方式,是否與我們人腦相似呢?
為了回答這個問題,研究團隊開發了一種巧妙的方法。他們就像音樂制作人一樣,把語言按照固定的節拍進行排列。具體來說,他們讓每個音節或詞匯以4赫茲的頻率出現,也就是每秒4個音節,然后每兩個音節組成一個短語(2赫茲),每四個音節組成一個句子(1赫茲)。這樣做的好處是,如果大腦或AI模型真的能夠理解語法結構,那么在分析它們的活動時,就應該能在對應的頻率上看到特殊的信號。
這種方法的巧妙之處在于,它利用了頻率分析技術,就像音響工程師使用均衡器來分析音樂中不同頻段的聲音一樣。當研究人員分析大語言模型內部神經元的活動時,如果某個神經元專門負責處理句子結構,那么它就會在1赫茲頻率上顯示出強烈的反應;如果專門處理短語,就會在2赫茲上有反應。同樣的原理也適用于分析人腦的電信號。
研究團隊選擇了六個主流的大語言模型進行測試,包括GPT-2、Gemma、Gemma 2、Llama 2、Llama 3.1和GLM-4。這些模型就像不同品牌的汽車一樣,雖然都能完成運輸任務,但內部構造和性能各有特色。通過HFTP方法,研究人員能夠精確定位到每個模型中負責處理句子和短語的具體神經元,就像找到汽車發動機中負責點火的具體部件一樣。
在人腦研究方面,團隊使用了一種叫做立體腦電圖(sEEG)的技術,這是一種能夠直接記錄大腦內部電活動的方法。他們邀請了26名中文母語者參與實驗,讓這些志愿者聽中文語料,同時記錄他們大腦各個區域的電信號。這就像在一座大城市的不同街區安裝監控攝像頭,觀察交通流量的變化一樣。
一、大語言模型內部的語法處理機制
研究結果顯示,所有六個大語言模型都能夠識別和處理語法結構,但它們的處理方式各不相同,就像不同的廚師都能做出美味的菜肴,但手法和風格各有特色。
在GPT-2模型中,研究人員發現負責處理句子和短語的神經元主要集中在中間層,就像一棟辦公樓里,重要的會議室設在中間樓層一樣。這表明GPT-2采用了一種平衡的語法處理策略,既不會過早做出判斷,也不會延遲到最后才處理語法信息。
相比之下,Gemma系列模型呈現出完全不同的模式。在原始的Gemma模型中,語法處理神經元大量聚集在早期層次,就像一個急性子的人,總是在聽完一句話的開頭就急于理解其結構。有趣的是,升級版的Gemma 2在保持這種早期處理特點的同時,還增強了與人腦的相似性。
Llama系列模型則展現了另一種策略。Llama 2和Llama 3.1都傾向于將語法處理延遲到較深的層次,類似于一個深思熟慮的人,會等到收集足夠信息后才進行綜合分析。然而,令人意外的是,作為升級版本的Llama 3.1,其語法處理神經元的比例實際上比Llama 2要少。從Llama 2的11%下降到了Llama 3.1的4.5%,Gemma系列也出現了類似的下降,從27%降到了22%。
這種現象就像一家公司在擴大規模時,可能會減少某些專門部門的人員比例,轉而投入到其他業務領域。研究人員認為,這些升級版模型為了在復雜任務上表現更好,可能將更多的計算資源分配給了其他功能,而不是專門的語法處理。
特別值得注意的是,所有六個模型都顯示出一個一致的特點:負責處理句子的神經元和負責處理短語的神經元之間存在很強的關聯性。它們的相關系數都在0.754以上,最高的達到了0.994。這就像一對配合默契的舞伴,一個人的動作總是能很好地配合另一個人的節拍。這種強相關性暗示著,這些模型在內部使用了相似的基礎機制來處理不同層次的語法結構。
二、人腦中的語法處理網絡
當研究人員將同樣的方法應用到人腦研究上時,發現了一個與大語言模型截然不同的模式。人腦處理語法的方式更像是一個專業化的工廠,不同的車間負責不同層次的加工工作。
在人腦中,負責處理短語的區域主要集中在相對較低層次的腦區,比如初級聽覺皮層(A1),這些區域就像工廠的原料處理車間,負責對輸入的語言信息進行初步加工。隨著信息向更高層次的腦區傳遞,句子級別的處理逐漸占據主導地位,特別是在下額葉回(IFG)等區域,這些就像工廠的最終裝配車間,負責將各個部件組裝成完整的產品。
與大語言模型不同的是,人腦中負責處理句子和短語的區域之間并沒有顯著的相關性。左半球的相關系數只有-0.169,右半球為-0.197,這些數值都不具有統計學意義。這種現象就像一個大型企業中,雖然不同部門都在為同一個目標工作,但它們的運作方式相對獨立,各自有著專門的職責分工。
這種差異揭示了人腦和人工智能在信息處理策略上的根本不同。人腦傾向于使用專門化的區域來處理不同層次的語法信息,就像一條專業化的生產線,每個工位都有明確的職責。而大語言模型則更像是多功能的處理器,同一組神經元可能同時參與多種層次的語法處理。
研究還發現,人腦的語法處理主要集中在左半球,這與已知的語言功能側化現象一致。左半球的語言區域包括顳上回(STG)、顳中回(MTG)、顳下回(ITG)和下額葉回(IFG)等,這些區域構成了一個緊密協作的語言處理網絡。
三、大語言模型與人腦的相似性分析
當研究人員開始比較大語言模型和人腦的語法處理模式時,發現了一些令人驚訝的相似性和差異。這就像比較兩種不同的交通系統,雖然最終目標都是運輸,但路線規劃和運作方式卻各有特色。
所有六個大語言模型都與人腦的左半球表現出比右半球更強的相似性,這一發現與人類語言處理的左半球優勢完全吻合。這種相似性不是巧合,而是反映了某種深層的處理原理。就像兩個獨立設計的導航系統,如果都選擇了相同的最優路線,說明這條路線確實具有某種內在的合理性。
在具體的相似性數值上,GPT-2表現最為突出,與人腦左半球的相似度達到了0.654,在句子和短語處理上都保持了這一水平。這就像一個多才多藝的演員,能夠在不同類型的角色中都表現出色。Gemma 2緊隨其后,相似度為0.644,這也驗證了升級版本在模擬人腦方面的改進。
然而,最令人意外的發現是關于模型升級的效果。按照常理,升級版本應該在各方面都表現更好,但現實情況卻更加復雜。Gemma 2確實比原版Gemma表現更好,與人腦的相似性有所提升,就像一輛經過改良的汽車,在性能上確實有所改進。
但Llama 3.1的情況卻截然相反。作為Llama 2的升級版,它與人腦的相似性實際上下降了,從0.645降到了0.514。這種現象就像一個原本擅長古典音樂的鋼琴家,在學習了爵士樂和流行音樂后,雖然技能更全面了,但在古典音樂方面的專精度反而下降了。
研究人員認為,這種現象與模型的訓練策略密切相關。Llama 3.1使用了更大規模、更多樣化的訓練數據,特別是包含了大量代碼、推理和多語言內容。這種訓練策略雖然提升了模型在復雜任務上的表現,但可能稀釋了其在自然語言特定模式上的專精度。就像一個學生如果同時學習太多不同的科目,可能在每個科目上的深度都會受到影響。
在腦區對應關系的分析中,研究發現大語言模型與人腦語言網絡的核心區域確實存在對應關系。左側的初級聽覺皮層(A1)、顳上回(STG)、顳中回(MTG)和下額葉回(IFG)等區域,在所有模型中都顯示出較強的相關性。這些區域正是神經科學研究中公認的語言處理核心區域,就像城市中的商業中心區,總是最繁忙、最重要的地方。
四、跨語言處理能力的差異
為了更全面地理解大語言模型的語法處理能力,研究團隊還進行了跨語言實驗,測試這些模型在處理中文和英文時的表現差異。這就像測試一個翻譯員在不同語言之間切換時的表現,能夠揭示其語言處理機制的通用性和特異性。
在這項測試中,研究人員發現了一個有趣的現象:不同模型在處理多語言時采用了不同的策略。Llama 2、Llama 3.1和GLM-4傾向于將語言特異性神經元集中在較深的層次,這就像一個多語言使用者,在深度思考時才會動用特定語言的高級語法規則。而中英文通用的神經元則隨著網絡深度的增加而逐漸增多,表明這些模型在深層次上傾向于使用統一的表示方法。
Gemma系列模型則展現了不同的模式。原版Gemma在早期和晚期層次都有語言特異性和通用性神經元的分布,而Gemma 2則主要在早期層次就完成了這種分工。這種差異就像兩種不同的學習策略:一種是邊學邊分類,另一種是先分類再深入學習。
GPT-2作為經過中文訓練的模型,顯示出最均衡的分布模式,各個層次都有相對平均的語言特異性和通用性神經元分布。更有趣的是,它顯示出明顯的處理順序:英語特異性神經元主要出現在早期層次,而中文特異性神經元則更多出現在較深層次。這種模式可能反映了模型訓練過程中語言接觸的順序和強度。
特別值得注意的是Llama 3.1的表現。雖然它號稱支持176種語言,但在中文特異性神經元的數量上卻明顯少于其他模型,這可能解釋了為什么它與中文母語者大腦的相似性較低。這就像一個號稱精通多種語言的人,雖然能用很多語言進行基本交流,但在每種語言的深度理解上可能都不夠專精。
五、自然語言場景下的驗證
為了驗證HFTP方法在真實語言環境中的有效性,研究團隊還使用了更接近日常對話的自然語料進行測試。他們構建了八音節和九音節的中文語料,以及相應的八詞和九詞英文語料,這些語料來源于日常對話、新聞報道、文學作品和詩歌等多種文本類型。
在這些更復雜的語言材料中,HFTP方法依然能夠檢測到清晰的頻率模式,但呈現出更豐富的層次結構。以八音節中文語料為例,系統能夠檢測到四個明顯的頻率峰:0.5赫茲對應整句節奏,1.0赫茲對應經典的四字短語節奏,1.5赫茲對應中等長度的2-3音節組合,2.0赫茲對應常見的雙音節詞匯節奏。英文八詞語料也顯示出相似的四峰模式,證明了這種方法的跨語言通用性。
九音節語料的結果更加有趣,頻率峰移到了約0.44、0.89、1.33和1.78赫茲。這種移動就像音樂中的變調,雖然基本結構保持不變,但具體的頻率會根據內容長度進行相應調整。其中1.33赫茲恰好對應豐富的三字短語結構,而0.89赫茲則反映了九字句中常見的韻律性停頓,通常出現在四到五字的位置。
當研究團隊使用Wikipedia文本進行測試時,發現雖然同樣能檢測到句子級別(0.5赫茲)和各種短語級別(1.0、1.5、2.0赫茲)的信號,但這些信號相比于精心構建的語料要弱一些。這是因為Wikipedia文本包含了更多不規則的內容,比如混合文字、縮寫、數字符號、參考文獻片段等,這些內容就像音樂中的雜音,會干擾正常的韻律模式。
這些發現表明,HFTP方法不僅適用于實驗室精心控制的語料,也能夠推廣到真實世界的復雜語言環境中。這種魯棒性使得該方法具有廣泛的應用潛力,就像一個好的檢測工具,不僅在理想條件下有效,在復雜環境中也能發揮作用。
六、方法學創新與技術突破
HFTP方法的核心創新在于將頻域分析技術巧妙地應用到了神經網絡和腦科學研究中。這種方法就像給語言處理系統安裝了一個精密的"心電圖"設備,能夠監測到平時察覺不到的內在節律。
在技術實現上,研究團隊首先需要解決一個基礎問題:如何為本來沒有時間概念的大語言模型創造時間序列。他們的解決方案相當巧妙,人為地給每個輸入單元分配了4赫茲的處理頻率,就像給一個靜態的畫面添加了時間軸,讓原本空間性的計算過程具有了時間維度。
對于人腦數據的處理,團隊使用了試間相位一致性(ITPC)這一技術。這種方法的優勢在于它對噪聲相對不敏感,能夠從復雜的腦電信號中提取出穩定的頻率成分。就像在嘈雜的環境中依然能夠聽清特定頻率的音調一樣,ITPC能夠從變化多端的腦電活動中識別出與語法處理相關的穩定模式。
為了確保研究結果的可靠性,團隊還設計了嚴格的統計驗證程序。對于每個檢測到的頻率峰,他們都會進行1000次隨機重排測試,只有那些明顯超出隨機水平的信號才被認定為真正的語法處理標記。這就像質量檢查員會對產品進行多次測試,確保每個通過的產品都符合標準。
在神經元選擇策略上,研究團隊采用了層次化的篩選方法。首先識別出在特定頻率上有顯著反應的神經元,然后通過Z分數分析進一步篩選出那些在實驗條件和控制條件之間有顯著差異的神經元。這種雙重篩選就像招聘過程中的筆試和面試,確保最終選中的神經元確實具有專門的語法處理功能。
七、研究發現的深層意義
這項研究的發現具有多重意義,不僅推進了我們對人工智能的理解,也為神經科學和語言學研究提供了新的視角。
從人工智能發展的角度來看,這項研究揭示了一個重要現象:模型性能的提升并不總是意味著與人腦相似性的增加。這就像兩條通往同一目的地的道路,雖然都能到達終點,但路徑選擇可能完全不同。Llama 3.1雖然在多項任務上表現優異,但其與人腦的相似性卻下降了,這提醒我們需要重新思考什么是真正"智能"的人工智能。
這一發現對于人工智能的未來發展具有重要指導意義。如果我們的目標是創造更像人類思維的AI系統,那么僅僅追求任務性能的提升可能是不夠的,我們還需要考慮AI系統的內在處理機制是否與人腦相似。這就像設計汽車時,不僅要考慮速度和效率,還要考慮駕駛體驗是否符合人類的習慣。
從神經科學的角度來看,這項研究提供了一種全新的工具來研究大腦的語言處理機制。傳統的腦科學研究往往需要復雜的實驗設計和昂貴的設備,而HFTP方法相對簡單、經濟,且能夠提供高精度的分析結果。這就像從顯微鏡發展到電子顯微鏡,為科學家提供了更強大的觀察工具。
更重要的是,這種方法還能夠擴展到其他認知功能的研究中。只要是具有層次結構的認知過程,都可能通過類似的頻域分析方法來研究。這為理解人腦的復雜認知機制開辟了新的途徑,就像打開了一扇通往大腦奧秘的新大門。
從跨學科合作的角度來看,這項研究展示了計算機科學、神經科學和語言學結合的巨大潛力。通過將人工智能的計算模型與大腦的生物機制進行對比,研究人員能夠從兩個方向同時推進知識的邊界:既能改進AI系統的設計,又能加深對人腦工作原理的理解。
八、未來應用前景與社會影響
HFTP方法的應用前景十分廣闊,在多個領域都有著潛在的重要價值。
在教育領域,這種方法可能revolutionize我們對語言學習和教學的理解。通過分析學習者大腦中語法處理的發展模式,教育工作者可以設計更有針對性的教學方法。比如,如果發現某個學生在短語層面的處理存在困難,就可以專門設計相關的練習來強化這一能力。這就像給每個學生提供個性化的健身方案,針對不同的弱項進行專門訓練。
在臨床醫學方面,HFTP有望成為診斷語言障礙的新工具。傳統的語言能力評估往往依賴行為測試,而HFTP可以直接觀察大腦內部的語言處理機制,可能更早、更準確地發現問題。這種方法特別適用于那些難以進行行為測試的患者,比如昏迷患者或嚴重自閉癥患者。
對于人工智能產業,這項研究提供了優化模型設計的新思路。如果我們希望AI系統更好地與人類協作,那么讓AI的思維模式更接近人腦可能是一個重要方向。這不僅能提高人機交互的自然性,還可能提升AI在理解人類意圖方面的能力。
然而,這項研究也帶來了一些需要深思的問題。如果AI系統真的能夠模擬人腦的語言處理機制,這是否意味著它們也具有了某種形式的"理解"能力?這個問題不僅關系到AI的技術發展,也涉及到我們對智能本質的哲學思考。
從社會倫理的角度來看,這種能夠深入分析大腦活動的技術也需要謹慎使用。雖然HFTP目前主要用于科學研究,但如果這種技術被不當使用,可能會侵犯個人的思維隱私。就像任何強大的工具一樣,它既可能被用來造福人類,也可能被濫用。
研究團隊在論文中也坦誠地討論了這些潛在的負面影響。他們指出,雖然HFTP可以支持更安全、更可控的AI模型開發,并為非侵入性診斷提供新的標記物,但同樣的可解釋性技術也可能被用于優化說服性操作,如果與個人神經數據結合,還可能威脅隱私。
目前,這項研究還存在一些限制。雖然團隊在中文和英文語料上都進行了AI模型測試,但人腦數據主要來自中國的志愿者,且主要使用中文刺激。研究團隊已經開始收集英語母語者的數據,以進行更全面的跨語言驗證。此外,他們也計劃擴大模型測試范圍,研究更多不同架構和參數規模的AI系統。
說到底,這項研究就像在人腦和人工智能之間搭建了一座橋梁,讓我們能夠更好地理解這兩種不同但又相關的"智能"系統。雖然我們還遠未完全理解大腦的工作原理,也還在探索AI的發展方向,但這種比較研究為我們提供了寶貴的洞察。它告訴我們,智能可能有多種實現方式,而理解這些不同方式之間的關系,將有助于我們既創造更好的AI系統,又加深對自身大腦的認識。
這項研究也提醒我們,在追求AI技術進步的同時,不應忽視對其內在機制的理解。正如物理學不僅關心實驗結果,更關心支配這些結果的基本原理一樣,AI研究也需要在追求性能的同時,深入探索其工作原理。只有這樣,我們才能真正掌控AI技術的發展方向,確保它能夠更好地服務于人類社會。
對于普通人來說,這項研究最重要的意義可能在于它讓我們重新審視人類智能的獨特性。雖然AI在很多任務上已經達到或超越了人類水平,但這項研究顯示,AI和人腦在處理信息的方式上仍然存在根本差異。這種差異不應該被視為AI的缺陷,而應該被理解為不同智能形式的體現。未來的發展方向可能不是讓AI完全模仿人腦,而是讓這兩種不同的智能形式更好地互補,共同解決人類面臨的復雜問題。
Q&A
Q1:什么是層次頻率標記探針(HFTP)方法?
A:HFTP是北京大學團隊開發的一種新方法,就像給語言處理系統安裝"心電圖"設備。它將語言按固定節拍排列(每秒4個音節,每2個音節組成短語,每4個音節組成句子),然后通過頻率分析來檢測大腦或AI模型中專門處理不同語法層次的神經元。如果某個神經元專門處理句子結構,就會在1赫茲頻率上有強烈反應。
Q2:為什么升級版的Llama 3.1與人腦相似性反而下降了?
A:雖然Llama 3.1在任務性能上更強,但與人腦的相似性從0.645降到了0.514。這是因為它使用了更大規模、更多樣化的訓練數據,包含大量代碼、推理和多語言內容。就像一個學生同時學習太多科目,雖然技能更全面,但在特定領域的專精度會下降。模型將更多資源分配給了復雜任務,稀釋了在自然語言特定模式上的專精度。
Q3:這項研究對普通人的生活有什么實際意義?
A:這項研究有多重實際應用價值。在教育方面,可以通過分析學習者大腦的語法處理模式設計個性化教學方法;在醫療方面,能夠更早更準確地診斷語言障礙,特別適用于難以進行行為測試的患者;在AI發展方面,為創造更自然的人機交互提供指導。同時也提醒我們重新思考人類智能的獨特性和AI發展的方向。





京公網安備 11011402013531號