
編輯:peter東
LLM再下一城!伯克利研究證明:OpenAI的o1被證明也具有匹敵人類語言學家的元分析能力。
在人類諸多才能之中,哪些才是人類所獨有的?
自古希臘哲人亞里士多德以來,語言便被視為最能彰顯人之本性的標志。他曾言:人類乃「具有語言的動物」。

即使當今的大語言模型如ChatGPT已能在表層上模擬人類的日常言談,學者們依然追問:
在人類語言的深處,是否蘊藏著某些獨特的結構與特質,是任何其他生物的溝通方式,乃至AI的運算體系,皆無法真正企及的?
加州大學伯克利分校語言學家、羅格斯大學的攜手,讓多個大語言模型經受一系列語言學測試——其中包括要求模型歸納虛構語言的規則。
雖然大多數大語言模型未能像人類那樣解析語言學規則,但有一個模型展現出遠超預期的驚人能力。它能像語言學研究生那樣分析語言——劃分句子成分、解析多重歧義,并能運用遞歸等復雜語言學特征。
研究者Ga?per Begu?表示,這一發現「挑戰了我們對人工智能能力的認知」。

AI會說話不稀奇,會解釋才稀奇——
如果語言是讓我們成為人類的關鍵,那么如今大語言模型獲得了「元語言」能力,這又意味著什么呢?

LLM構建無窮遞歸
想象一下:你在搭一座一層套一層、像俄羅斯套娃一樣的「句子塔」。

每套進一層,理解難度就指數級上升。
這種結構,在語言學里叫「中心嵌入」(center embedding),曾被知名語言學家喬姆斯基稱為能定義人類語言與思維的決定性特征。
比如這句話:
The worldview that the prose Nietzsche wrote expressed was unprecedented.
(大意為:尼采所寫的那篇散文所表達的世界觀是前所未有的。)
表面上看平平無奇,但如果你拆開它的「語言洋蔥」:
最外層:The worldview [...] was unprecedented(這個「世界觀」前所未有);
套進去一層:that the prose [...] expressed(是「那篇散文所表達的」);
再往里一層:Nietzsche wrote(而這篇散文是「尼采寫的」)。
這就像在一個句子中間,又塞進一個完整的句子,再在那個句子里塞進另一個句子——三層套娃,層層遞歸。
人類能理解這樣的句子,但之前,人們認為這樣的能力大模型不具備。
上述句子在真實對話中幾乎從未出現過——因為大家會覺得它「太繞了!」
所以,任何語言模型如果只是靠「背書」,根本不可能見過,自然也無法識別出這種例子。
語言學家們認為,人類語言從有限詞匯和有限規則中生成無限可能句子,這種能力歸因于無限遞歸。
迄今為止,還沒有令人信服的證據表明其他動物能夠以復雜的方式使用遞歸。

圖1:不同大模型識別多重遞歸,繪制正確語法樹的比例
然而,該研究指出在眾多大模型中,唯有OpenAI o1模型不僅看懂包含多重遞歸的句子(圖1)。
o1不僅能如同語言學家那樣,以接近100%的正確率畫出正確的樹狀結構,還能將本就復雜的句子變得更多一層。

圖2:該句子對應的正確語法樹
當它被問:「能不能再加一層遞歸?」o1回復:
The worldview that the prose that the philosopher Nietzsche admired wrote expressed was unprecedented.
「那位尼采所敬仰的哲學家所撰寫的散文所表達的世界觀是前所未有的。」
這說明o1不僅能夠使用語言,還能夠思考語言,具備元語言能力(metalinguistic capacity )。
由于語言模型只是在預測句子中的下一個單詞,人對語言的深層理解在質上有所不同。因此,一些語言學家表示,大模型實際上并沒有在處理語言。
這項研究的結論看起來是對上述觀點的否定。


大模型能區分歧義
也能深入理解句子
想象一下,你聽到下面的話:「Eliza wanted her cast out.」
乍一聽,好像就是「Eliza想把她的cast趕出去」?
但「cast」這個詞既可以是動詞(「驅逐」),也可以是名詞(「石膏」)!
于是這句話就有兩種不同的含義,分別是
Eliza想要她的石膏被拿出去,
Eliza想把她趕出去。
這樣識別包含多義性句子的能力,之前同樣被認為大模型不具備。
人類擁有很多常識知識,使我們能夠排除歧義。但大模型很難具有這樣的常識知識水平。
然而該研究表明,o1可正確識別兩種結構,并為每種生成了符合語言學規劃的句法樹。其他模型(如 GPT-4、Llama 3.1)只會生成不合語法的結構,還會對語義產生誤解。
該研究還考察了大模型在音韻學相關任務上的表現——
音韻學是研究聲音模式以及最小的聲音單位,即音素的組織方式。
例如,在英語中,給以「g」結尾的詞加上「s」會發出「z」的音,就像「dogs」一樣。但給以「t」結尾的詞加上「s」聽起來更像標準的「s」音,就像「cats」一樣。
該研究一口氣創建了30種新的迷你語言,以了解大模型是否能夠在面對新生成的虛擬語言時,在沒有任何先驗知識的情況下能不能正確推斷語音規則。
結果出人意料,即使是在這些虛構的語言上,o1在音韻相關的任務上表現依舊出色。


大模型比人類更好地理解語言嗎?
從上述三個例子可以看出,曾經那些被認為僅僅人類能夠擁有的語言理解能力,大模型如今也具備了。
2023 年著名語言學家喬姆斯基在《紐約時報》上寫道:「語言的正確解釋很復雜,不能僅僅通過浸泡在大數據中就能學會。」

該文認為盡管 AI 模型在運用語言方面可能很擅長,但它們并不具備以復雜方式分析語言的能力。
在此思潮影響下,即使ChatGPT在各方面上復制了自然語言,公眾仍想知道大模型是否有人類語言的特定特征能不能由大模型復現。
這當然很有必要,隨著社會越來越依賴大模型,了解它在哪些方面能成功以及哪些方面會失敗變得越來越重要。
語言分析是評估語言模型推理能力與人類相似程度的理想測試平臺。

而o1能夠以與語言學家相似的方式分析語言,例如繪制句子圖、解決多個歧義含義,并利用遞歸等復雜的語言特征
但我們發現這一現象后,人們不禁會問下面兩個問題:
第一個問題是為何只有o1可行,其它大模型表現都差一大截。
回答是相比其它模型,o1 的優勢很可能源于思維鏈(類似Deepseek的深度思考),使其能像人類語言學家一樣逐步推理、驗證假設、構建抽象規則。
第二個問題是當模型的性能隨著規模變大而變大時,大模型是否有一天會比我們更能準確的理解語言嗎?
對于這個問題的回答,目前還沒有定論。
一方面,任何的大模型在語言學上還沒有提出過原創性的觀點,也沒有教給我們關于語言的新知識。
另一方面,增加計算能力和訓練數據,語言模型最終會在語言技能上超越我們,看不出有什么理由阻止語言模型展現出比我們更好的語言理解能力。
研究尚不足以宣稱「機器理解語言勝于人類」,但足以改變評價口徑:對模型的考察,應從「任務產出」轉向「結構解釋」。
當可解釋性成為首要指標,AI研究、教育與應用治理將迎來同一套標準——把「為什么對」放在「對不對」之前。





京公網安備 11011402013531號