
大型語言模型可以做一些令人印象深刻的事情,例如寫詩或生成可行的計算機程序,即使這些模型被訓練來預測一段文本中接下來的單詞。
這種令人驚訝的能力使得模型看起來好像正在隱性地學習有關世界的某些普遍真理。
但一項新研究表明,情況并非如此。研究人員發現,一種流行的生成式人工智能模型可以近乎完美地提供紐約市的逐向駕駛路線指引——而無需形成準確的城市內部地圖。
盡管該模型具有出色的有效導航能力,但當研究人員關閉一些街道并增加繞行路線時,其性能卻急劇下降。
深入挖掘后,研究人員發現,模型隱式生成的紐約地圖有許多不存在的街道在網格之間彎曲并連接遠處的交叉路口。
這可能會對現實世界中部署的生成式人工智能模型產生嚴重影響,因為如果任務或環境稍有變化,在某種情況下表現良好的模型可能會崩潰。
“一個希望是,因為法學碩士可以在語言方面完成所有這些驚人的事情,也許我們也可以在其他科學領域使用這些相同的工具。但如果我們想利用這些技術來取得新發現,那么法學碩士是否正在學習連貫的世界模型的問題非常重要,”資深作者、經濟學助理教授兼麻省理工學院信息與決策系統實驗室 (LIDS) 首席研究員 Ashesh Rambachan 說。
與 Rambachan 一起撰寫了一篇關于該項研究的論文的還有:哈佛大學博士后 Keyon Vafa、麻省理工學院電氣工程與計算機科學 (EECS) 研究生 Justin Y. Chen、康奈爾大學 Tisch 大學計算機科學與信息科學教授 Jon Kleinberg 以及麻省理工學院電氣工程與計算機科學系和經濟學系教授、LIDS 成員 Sendhil Mullainathan。這項研究將在神經信息處理系統會議上發表。
新指標
研究人員專注于一種稱為 transformer 的生成式 AI 模型,該模型構成了 GPT-4 等 LLM 的支柱。Transformer 經過大量基于語言的數據訓練,可以預測序列中的下一個標記,例如句子中的下一個單詞。
但研究人員表示,如果科學家想要確定法學碩士是否形成了準確的世界模型,僅僅測量其預測的準確性是不夠的。
例如,他們發現,Transformer 幾乎每次都可以預測四子棋游戲中的有效動作,而無需了解任何規則。
因此,該團隊開發了兩個可以測試 Transformer 世界模型的新指標。研究人員將評估重點放在一類稱為確定性有限自動機 (DFA) 的問題上。
DFA 是一個具有一系列狀態的問題,就像到達目的地必須穿過的路口一樣,也是描述沿途必須遵循的規則的具體方法。
他們選擇了兩個問題來表述為 DFA:在紐約市街道上導航和玩棋盤游戲奧賽羅。
“我們需要測試平臺,以便了解世界模型是什么。現在,我們可以嚴格思考恢復那個世界模型意味著什么,”Vafa 解釋道。
他們開發的第一個指標稱為序列區分,表示模型已經形成了一個連貫的世界模型,如果它看到兩種不同的狀態,比如兩個不同的奧賽羅棋盤,并認識到它們之間的區別。序列,即數據點的有序列表,是轉換器用來生成輸出的。
第二個指標稱為序列壓縮,它表示具有連貫世界模型的變換器應該知道兩個相同的狀態,就像兩個相同的奧賽羅棋盤一樣,具有相同的可能的后續步驟序列。
他們使用這些指標來測試兩類常見的變壓器,一類是用隨機產生的序列生成的數據進行訓練的,另一類是用以下策略生成的數據進行訓練的。
不連貫的世界模型
令人驚訝的是,研究人員發現,隨機做出選擇的變壓器形成了更準確的世界模型,也許是因為他們在訓練期間看到了更多潛在的下一步。
“在黑白棋中,如果你看到的是兩臺隨機的計算機而不是冠軍選手在玩,理論上你會看到所有可能的走法,甚至是冠軍選手不會走的壞步,”瓦法解釋道。
盡管變換器在幾乎所有情況下都產生了準確的方向和有效的奧賽羅動作,但這兩個指標表明,只有一個為奧賽羅動作生成了連貫的世界模型,并且在尋路示例中沒有一個在形成連貫的世界模型方面表現良好。
研究人員通過在紐約市地圖上添加繞行路線證明了這一點的含義,這導致所有導航模型失敗。
“我很驚訝,我們一增加繞行路線,性能就下降得如此之快。如果我們關閉 1% 的可能街道,準確率就會立即從近 100% 下降到只有 67%”,Vafa 說。
當他們恢復模型生成的城市地圖時,它們看起來就像一個想象中的紐約市,數百條街道縱橫交錯地覆蓋在網格之上。地圖上經常包含其他街道上方的隨機立交橋或多條方向不可能的街道。
這些結果表明,Transformer 無需理解規則就能在某些任務上表現出色。研究人員表示,如果科學家想要構建能夠捕捉精確世界模型的 LLM,他們需要采取不同的方法。
“我們經常看到這些模型做出令人印象深刻的事情,并認為它們一定對世界有所了解。我希望我們能讓人們相信,這是一個需要認真思考的問題,我們不必依靠自己的直覺來回答它,”Rambachan 說。
未來,研究人員希望解決更加多樣化的問題,例如那些只部分了解某些規則的問題。他們還希望將評估指標應用于現實世界的科學問題。
這項工作部分由哈佛數據科學計劃、美國國家科學基金會研究生研究獎學金、Vannevar Bush 教師獎學金、西蒙斯合作獎學金以及麥克阿瑟基金會資助。
來自:人工智能學家





京公網安備 11011402013531號