文|追問nextquestion
認知科學將人類及由算法驅動的智能體分為兩類,一類是“按圖索驥”的目標驅動,像是有地圖的探險家,知道自己要去哪里;另一類則是“按部就班”的遵循習慣,像是每天按相同的路線去學校的學生。通常研究人員認為這兩類行為由不同的神經機制控制。
然而近日的Nature Comunication研究發現,它們實際上可以通過同一個理論框架來解釋,這就是變分貝葉斯理論。

?Han, D., Doya, K., Li, D.et al.Synergizing habits and goals with variational Bayes.Nat Commun15, 4461 (2024). https://doi.org/10.1038/s41467-024-48577-7
問題:同樣的領域,相同的本質
在科學研究中,無論是研究動物、人類還是機器學習算法,我們經常會遇到這樣一個問題:當面對新環境或挑戰時,是應該依靠本能和習慣,還是應該嘗試學習新的方法?這個問題看似涉及很多不同的領域,但實際上,它們都圍繞著一個核心問題:如何在快速適應和保持靈活性之間找到最佳平衡。
例如,當動物面對環境變化時,它們可能會本能地做出反應,如尋找避難所或尋找食物,這些行為可能是天生的也可能是后天學來的。同樣,人們在做決策時,有時會不假思索地依賴直覺(心理學家卡尼曼稱之為“系統一”),而有時則需要深思熟慮(“系統二”)。而到了機器學習中,一些算法是“無模型”(model free)的,即它們不依賴于預先設定的規則,而是試圖從經驗中學習;而另一些“有模型”(model based)的算法則是建立在明確的規則和模型基礎上的。
這些不同的情況實際上是相似的:無論是生物還是機器,它們都需要在速度(快速適應環境)和靈活性(能夠處理新情況)之間找到最佳的平衡。這種平衡是所有智能體生存和成功的關鍵。
例如,細菌通過趨化性行為(向營養豐富區域移動的本能)快速適應環境;面對沒有預設的環境時,智能體能如一個兩耳不聞窗外事的小鎮做題家,能夠更快地達到目標。但更復雜的生物或算法可能需要更靈活的策略來面對更復雜的挑戰。
在這種情況下,為了解釋目標導向的學習是如何展開的,神經科學家提出了主動推理(active inference)的理論框架。該框架指出大腦總是試圖通過指揮身體與環境進行互動,以減少環境預測時要面對的不確定性及意外。該理論的核心概念“自由能”(free energy)衡量了智能體對感官輸入的概率預測與期望的感官輸入之間的差異。主動推理的過程,就是最小化自由能的過程。
盡管“主動推理”為我們提供了一個洞見目標導向學習的窗口,但在科學界,這依然是一個有待驗證的假說,尚未有充分的實證支持來證明其背后的神經機制。例如,主動推理能夠解釋基于目標的學習行為,即學習的行為就是最小化目標與現實的差異。但對于不需要意識介入、不依賴外部反饋的基于習慣的行為,主動推理卻顯得無能為力。
最近的研究嘗試說明,目標導向和習慣驅動這兩種看似對立的行為模式,是如何在一個統一的理論框架下共同作用,從而使生物體能夠高效并靈活地適應環境的。
發現:預測編碼與復雜度降低,大腦不斷進行的貝葉斯推斷
為了便于理解新框架,我們可以把大腦比作一個不斷試驗新菜品的廚師。當一個廚師在調整他的菜單時,他是在試圖讓菜肴更受歡迎,還是僅僅按照自己的習慣來烹飪呢?其實,他在做的是兩件事:一方面,他在減少自己烹飪的菜肴與顧客口味之間的差距;另一方面,他也在不斷更新和簡化食客口味變化的預測模型,即他對顧客口味的預期。
這個過程可以用一個簡單的例子來理解。一個只有幾種菜肴的簡單菜單可能因為不夠靈活而無法滿足所有顧客的需求。而一個可以根據顧客反饋自由調整的復雜菜單,雖然能更好地適應不同的口味,但可能因為過于復雜而難以控制,增加成本或導致味道不穩定。
科學家用數學語言描述了這一過程,定義了“潛在意圖”來擴展自由能內涵。在這里,自由能不僅僅是之前提到的主動推理中的自由能,它還包括智能體的行為傾向和對觀察的預測。智能體的學習行為可以視為一個連續更新的過程(馬爾科夫鏈),以最小化下述公式中的值Zt。這一值包含預測誤差(與現實的差異)和KL散度(模型復雜度)。
英國認知科學家Andy Clark指出,大腦是一個強大的預測機器,不斷地對即將到來的感覺輸入進行預測,并根據實際輸入調整這些預測。這個過程中的預測誤差就對應了上述公式的第一項。而第二項KL散度,衡量了行動前后預測的概率密度的差異,這反映了預測模型的復雜度。在習慣驅動的學習中,行動與否不會影響預測,這一項為零,即不存在模型。由此,代表模型的復雜度的KL散度將無模型和有模型的非黑即白式二分法,轉換為了連續的光譜漸變。

?a)整合習慣和目標框架的示意圖。b)展示該框架在訓練期間的結構。c展示該框架在行為過程中的結構。
在這個框架中,當面對新目標時,初期的學習更接近有模型的系統,就像廚師剛開業時試圖優化對新顧客口味的預測。一旦這個預測模型通過不斷的訓練達到令人滿意的程度,就可能轉向更類似習慣驅動的方式,不斷精煉自己的特色菜肴。
意義:讓AI能夠進行零次學習
人類智能的一大優勢,就是能夠在全新的環境中、沒有樣本借鑒的前提下解決各種任務。例如讓畫家去畫從沒有見過的麒麟,畫家只需要知道麒麟是一種象征吉祥的神獸;而AI卻需要具體的提示詞,如“描繪一只中國古代神話中的麒麟,它擁有龍頭、鹿角、獅眼、虎背、熊腰、蛇鱗、馬蹄和牛尾,整體形象莊嚴而神圣,色彩以金色和紅色為主,背景為祥云繚繞的仙境,展現出吉祥、和平與皇權的象征。”
第一個畫出麒麟的畫家,是在有了足夠多繪畫經驗后的零樣本學習;而對當前的AI來說,零樣本學習仍然是具有挑戰性的。而這正是該框架試圖解決的問題。
在環境發生變化時,基于本文提出的整合框架構建的智能體可以自發進行切換,由基于習慣的無模型學習切換為有模型學習,從而適應環境的變化。在實驗中,研究者使用了T型迷宮來測試智能體的適應能力。在這個迷宮中,智能體需要根據兩邊的獎勵來決定走向,學習策略以獲得更多的獎勵。

?T型迷宮與智能體在環境變化時的三個階段。
在一個基于習慣的系統中,智能體可能一直遵循舊有的路徑,即使獎勵已經變化;而目標導向的智能體也存在問題:舉個例子,如果最初迷宮左邊的獎勵是右邊的100倍,那智能體可能需要嘗試向左邊走一百次,才會更新模型,再去嘗試右邊(具體情況取決于智能體的模型)。這無疑是一種很不經濟的做法,真實世界若生物體有這樣的行為,多半會被自然選擇淘汰。而本文提出的框架,基于整合目標驅動和習慣框架訓練出的智能體,則在靈活性和速度中找到了權衡。它最初會適應環境,選擇右邊;而當環境改變時(左邊的獎勵消失),則會重新適應選擇左邊。
從T型迷宮的簡單實證實驗,可以看到新框架符合Yann LeCun提出的世界模型。Lecun強調,世界模型具有規劃未來和估計缺失觀測的雙重作用,應該是一個基于能量的模型。在目標導向行為的背景下,該框架將當前狀態、目標和要采取的行動作為輸入,并輸出能量值來描述它們之間的“一致性”。可以說,智能體在T型迷宮的決策,構建并依賴于LeCun心目中的世界模型。
從極簡單的T型迷宮到極復雜的大語言模型,必然還有很長的路要走。然而,根據本文描述的理論框架,我們可以看到一些重要的相似之處。例如,在訓練語言模型時,我們通常只根據現有的詞匯進行預測,這與訓練階段不設定具體目標的情況相似。這個框架中目標導向規劃的靈活性源于其能夠將任何未來的目標分解為一系列連續的步驟,僅預測接下來的觀察結果。這種方法限制了目標導向意圖與先驗分布之間的差異,從而壓縮了搜索空間,使搜索過程更加高效。這一點對于大模型也是適合的。
此外,根據框架中的KL散度項,我們可以理解預測編碼中的層級結構,即為了減少模型的復雜性,會采用層次化的信息處理方法。預測編碼理論還指出,大腦學習識別模式,通過忽略那些可以通過自然世界中的模式預測的信息,從而減少不必要的信息。這種信息處理策略與信息瓶頸理論相呼應,顯示了如何通過使用更低維度的信息進行表征來優化認知過程。
最后,這個理論框架不僅增進了我們對健康大腦功能的理解,還為理解和治療神經系統疾病提供了新的視角。例如,帕金森病患者往往在目標導向計劃能力上存在障礙,更多依賴于習慣性行為。這可能是由于目標導向意圖中存在的高不確定性。研究如何通過醫療干預或腦深部刺激(改變內部狀態)以及感覺刺激(改變大腦接收的輸入)來減少這種不確定性,可能為改善帕金森病患者的運動控制能力提供方法。
此外,孤獨癥譜系的研究也可以從這個理論框架中受益。孤獨癥患者常有重復行為,這可能與他們在預測編碼中過度強調模型復雜性有關,這影響了他們適應變化環境時的認知行為靈活性。引入一些隨機性以增加行為多樣性,可能是一種潛在的干預手段。





京公網安備 11011402013531號