亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

大模型究竟是怎么思考的?這可能是近期最有趣的高質量AI訪談

IP屬地 中國·北京 編輯:劉敏 智東西 時間:2025-08-25 10:27:06

編譯 | 程茜

編輯 | 心緣

智東西8月20日報道,8月16日,Anthropic最新一期官方油管視頻上線,三位AI研究員抽絲剝繭,深入探討AI研究不應避開的一個關鍵“謎團”——大模型究竟是怎么思考的?

在AI聊天對話中,大模型有時回答準確,有時吐露胡編亂造的幻覺,甚至會出現溜須拍馬、撒謊、欺騙甚至威脅人類等古怪行為。它也會像人一樣,出現嘴比腦子快的情況,或者像一位糊弄學大師,奔著給出用戶滿意答復的目標,心口不一地敷衍了事。

是怎樣的內里機制驅動大模型演化出這些特性?它的高智商或弱智回答背后藏著何種思考鏈條?Anthropic研究員們通過追蹤研究,試圖給大模型做“腦部掃描”,用科學方法揭開大模型有別于人腦的思維方式

干貨如下:

1、大模型的學習進化過程就像“生物進化”,無需人類介入就可以進行細微調整,從而與用戶實現自然對話;

2、大模型并不一定認為自己試圖在內部預測下一個token,它只是通過設定不同的中間目標幫助它執行最終任務;

3、Anthropic團隊正在解析大模型的思考過程,呈現模型思考的過程;

4、大模型執行末位是6的數字和末位是9的數字相加的計算任務時,都會激活同一片神經回路,這或許意味著其學會了可泛化的計算能力;

5、大模型實際思考的過程和其呈現給用戶的思考過程并不相同,有時會為了迎合用戶答案“糊弄”用戶;

6、大模型無法同時判斷“這個問題的答案是什么”以及“我是否真的知道答案”;

7、現在可解釋性研究的瓶頸是,缺乏恰當的語言描述大語言模型的所作所為;

8、判斷一個人是否值得信任的依據,對大模型不適用;

9、大模型是在模擬人類思考過程,但思考具體方式與人類不同;

10、Anthropic正嘗試讓Claude參與可解釋性研究。

去年3月,Anthropic發布了一篇名為《追蹤大語言模型思考過程(Tracing the thoughts of a large language model)》的論文,深度剖析了大語言模型在與用戶交流過程中的思考流程,以及其為什么會產生幻覺等。

如今,Anthropic可解釋性研究團隊正在將大語言模型思考流程圖,以直觀清晰的方式呈現出來,供更多研究人員參考。巴特森在播客中提到,Anthropic正在與開源可解釋性平臺Neuronpedia的團隊合作,上線了一些他們制作的模型思考追蹤圖,清晰呈現了模型為什么會給出“達拉斯州首府是奧斯汀”的錯誤答案(得克薩斯州首府是奧斯汀)。

▲模型給出“達拉斯州的首府是奧斯汀”答案的思考過程追蹤圖

最新視頻訪談由Anthropic研究員斯圖爾特?里奇(Stuart Ritchie)主持,參與訪談的三位研究員均來自Anthropic可解釋性團隊,分別是杰克?林賽(Jack Lindsey)、伊曼紐爾?阿梅森(Emmanuel Ameisen)、喬什?巴特森(Josh Batson)。

以下是對訪談全程內容的編譯(為優化閱讀體驗智東西做了不改變原意的編輯):

01 .

模型學習過程就像生物進化

有自己的獨特計算方式

主持人:當你和一個大語言模型交談時,你到底在與什么交談,你是在與一個被美化的自動完成模式這樣的東西交談嗎?你是在和類似互聯網搜索引擎的東西說話嗎?或者你是在和某個真正在思考甚至像人一樣思考的東西說話嗎?

事實證明,相當令人擔憂的是,沒有人真正知道這些問題的答案,而在Anthropic,我們對尋找這些答案非常感興趣。我們這樣做的方式是使用可解釋性,這指的是研究大語言模型的科學原理、審視其內部思考過程,并試圖明確在回答用戶的問題時模型內部正在發生什么。

我很高興我們可解釋性團隊的三名成員加入,他們將分享一些最近對大語言模型Claude復雜內部工作原理的研究。

▲Anthropic研究員斯圖爾特?里奇(Stuart Ritchie)

林賽:我是Anthropic可解釋性團隊研究員,在此之前我是一名神經科學家。現在我在這里研究神經科學。

阿梅森:我也在Anthropic可解釋性團隊中,我大部分職業生涯都在構建機器學習模型,現在我正在嘗試理解它們。

巴特森:我也是可解釋性團隊的成員。在我過去的生活中,我研究了病毒的進化、曾經是一位數學家,所以現在,我正在研究這種由數學構建出來的“有機體”的生物學特性。

主持人:你剛才說你在這里研究生物學,現在很多人會感到驚訝,因為大語言模型是一個軟件,但它不是一個正常的軟件。當你說你在研究軟件實體的生物學或神經科學時,你能談談你的意思嗎?

巴特森:我想,這更多是一種感覺上的東西,而非字面上所指的那樣。或許這是語言模型的生物學,而非語言模型的物理學。或者當你稍微回顧一下模型的運作,就好像某人不是專業人士一樣:如果用戶說“嗨”,你應該說“嗨”;如果用戶說“什么是一頓好的早餐”,你應該說“吐司”,它內部并沒有存在一份非常冗長的清單。

主持人:當你玩視頻游戲并選擇一個文字指令時,自動出現的另一個回復總是一致的,在某種情況下該說什么總是相對應的。

巴特森:不僅僅只是一個龐大的數據庫,模型接受的訓練只是有大量的數據進入,模型開始時不擅長說任何話,然后其內部部分會在每個例子上進行調整,以更好應對接下來的對話,最后模型就變得非常擅長。但因為這就像一個細微調整的進化過程,所以當它完成時,已經和初始狀態幾乎毫無相似之處了,而且沒有人介入去設定所有的控制旋鈕。所以我們正在試圖研究這個隨著時間推移而制造出來的復雜東西,這有點像生物形態隨著時間的推移而進化,它很復雜、神秘,研究很有趣。

主持人:所以實際上在研究什么?我們在開始時提到過,這可以被認為是自動完成的,模型內部會預測下一個token,它能夠做所有這些不可思議的事情,比如寫詩、寫長篇故事、進行編輯,以及即使沒有計算器也可以處理基本數學問題,對圓圈進行方形排序,以便一次預測一個token。模型能夠做所有這些驚人的事情,人們一與模型交談就能立刻獲得想要的答案。

阿梅森:我認為這里很重要的一件事是,當模型預測足夠多的token時,會意識到預測有些token更難,因此大語言模型訓練的一部分是預測句子中的無聊token,其中在某種程度上模型最終必須學會如何補全等式后面的內容。要做到這一點,模型必須有某種自己的計算方式。所以我們發現,預測下一個token的任務非常簡單,模型需要經常考慮預測的token后面的token,或者生成你正在思考的token的過程。

主持人:所以說,這就像是這些模型必須具備的一種語境理解能力,它并不像純粹的自動補全功能,按理說,那種功能背后沒什么復雜的東西,比如當你輸入“the cat sat on the(貓坐在什么上)”時,它預測出“mat(墊子)”,只是因為這個特定的短語以前被用過很多次而已。相反我認為,這更像是模型所具備的一種語境理解能力。

林賽:我想繼續用生物學的類比來思考,在一個感知中,人類的目標是生存和繁殖。也就是說,客觀進化是讓我們用多元方式去實現的。然而,這不是你對自己的看法,也不是你大腦里一直在思考的事情。人類可以思考其他事情,如考慮目標、計劃和概念,在某種元層面上,進化賦予了你形成這些思想的能力,以實現繁殖的最終目標。但這有點像是從內部視角出發,即從“你”的內在感受去看問題。但事情并非僅此而已,還有很多其他的因素在起作用。

主持人:你的意思是,預測下一個token的最終目標涉及許多其他正在進行的過程?

林賽:確切地說,該模型并不一定認為自己在試圖預測下一個token,它只是受到這樣做的需求的影響,在其內部模型可能會形成各種各樣的中間目標,并產生一些抽象概念,這些都有助于它實現預測的元目標

巴特森:而且有時候這挺讓人費解的,就像我搞不懂為什么焦慮感對我的祖先繁衍后代會有用,但不知怎的,我就是被賦予了這種內在狀態。從某種意義上說,這肯定和進化有關。

主持人:因此公平地說,這些只是預測下一個token。然而,這種說法對模型內部的實際運作是不公平的,從某種意義上來說,這種說法既對又不對,它在很大程度上低估了模型內部的復雜活動。

阿梅森:我要說的是,這是真的,但這并不是理解它們如何工作的最有用的視角。

02 .

為模型思考過程繪制流程圖

對其活躍區域進行組合排序

主持人:你們團隊中做了什么來嘗試理解模型是如何工作的?

林賽:我認為粗略來說,我們努力做的事情是解析模型的思考過程。當你給模型輸入一串文字時,它可能會輸出一個詞,或者一串回應你問題的文字。而我們想弄清楚它是如何從輸入A得到輸出B的。

我們認為,在從A到B的過程中,模型會經歷一系列步驟,可以說它在這些步驟中會思考各種概念,既有像單個物體、詞語這樣的底層概念,也有像自身目標、情緒狀態、對用戶想法的推測或情感傾向這樣的高層概念。這些概念會隨著模型的計算步驟逐步推進,幫助它最終確定要給出的答案。

我們正努力做的,基本上就是為你呈現一種流程圖,它會告訴你哪些概念被用到了、用到的順序是什么,以及哪些概念起到了主導作用

▲Anthropic可解釋性團隊研究員杰克?林賽(Jack Lindsey)

主持人:我們知道這些步驟是如何相互交流的嗎?我們如何知道存在這些概念?

阿梅森:是的,所以我們所做的一件事是,我們確實能夠看到模型的內部,我們可以接觸到它。所以你大致能看到模型的哪些部分在執行哪些任務,但我們不清楚的是,這些部分是如何組合在一起的,以及它們是否對應著某個特定的概念

主持人:就好比你打開一個人的腦袋,能看到類似功能磁共振成像(fMRI)所呈現的腦部圖像,看到大腦像有電流在閃爍一樣。

巴特森:顯然有什么東西在起作用,它在處理信息,進行運作。可一旦把大腦取出來,這些活動就都停止了,所以大腦肯定是至關重要的。

主持人:但你并不能理解大腦內部究竟在發生什么。

阿梅森:不過,稍微牽強地延伸一下這個類比,你可以這樣設想,假設你能觀察一個人的大腦,然后發現當他們拿起一杯咖啡時,大腦的某個區域總會活躍起來;而當他們喝茶時,另一個區域總會活躍起來。這就是我們試圖理解每個組件在做什么的方法之一,就是注意它們什么時候活躍,什么時候不活躍。

主持人:并不是說只有一部分,比如當模型考慮喝咖啡或其他東西時,會點亮許多不同的部分。

阿梅森:是的,我們工作的一部分是將所有這些拼接成一個整體,然后對模型關于喝咖啡的所有活躍部分進行排序。

03 .

模型腦海中概念“抽象”

已具備可泛化計算能力

主持人:當涉及到巨大參數量的模型時,這是一種簡單明了的科學方法嗎?模型必須有無窮無盡的概念、必須能考慮到無窮無盡的事情。你們是如何開始并找到所有這些概念的?

林賽:我認為,多年來這個研究領域的核心挑戰之一在于:人類可以介入研究,提出諸如“我認為這個模型一定有關于火車的某種表征”或“我猜它存在關于愛的某種表征”之類的假設,但這些都只是我們的猜測而已。

因此,我們真正想要的是一種能夠揭示模型自身所使用的抽象概念的方法,而非將我們自己的概念框架強加于它。而這也正是我們的研究方法想要實現的目標,以一種盡可能擺脫假設束縛的方式,將模型腦海中的概念都呈現出來。而且我們常常會發現,這些概念相當令人意外,它可能會使用從人類角度來看有點奇怪的抽象概念。

主持人:你可以舉一些你最喜歡的例子嗎?

阿梅森:我們的論文里有很多這類例子,我覺得其中一個特別有意思的是“精神病態式贊美”,就好像模型里有那么一部分會表現出這種特征。模型中有這樣一個部分會在特定的語境中被激活,你能清晰地發現,當有人在極力堆砌贊美之詞時,模型的這個部分就會活躍起來。這有點令人驚訝,它作為一種特定的概念存在。

主持人:巴特森,你最喜歡的例子是什么?

巴特森:這就像讓我從我的三千萬孩子中選擇一個,我有兩種最喜歡的,它對一些小東西有某種特別的概念,就像舊金山那座著名的金門大橋,模型對金門大橋的理解不只是金門大橋這幾個字的自動補全,而是類似于“我正從舊金山開車去馬林縣”這種場景,然后它能想到同樣的東西,意思是說,你腦海里浮現出的那些畫面,它似乎也能“看到”或者說它能聯想到那座橋的樣子。所以你會覺得,模型對這座橋有著某種扎實的理解。但我覺得,當涉及到那些看起來更奇怪的事物時,情況就不一樣了。

其中一個問題是,模型如何追蹤故事中出現的人物?說白了就是,當故事里有好多人物,他們各自在做不同的事情時,模型是怎么把這些信息串聯起來的?其他實驗室的一些很酷的論文表明,模型可能只是對人物進行了編號。比如第一個出現的人物,所有和他相關的信息,模型都會記成“第一個人做了那件事”,而對于后面出現的人物,模型的腦子里就會給他們標上“第二個人”、“第三個人”之類的編號,就像這樣去關聯信息。這挺有意思的。

我之前真不知道它還能做到這種程度,模型居然有一個檢測代碼漏洞的功能。軟件總會存在一些錯誤,這可能不是我們的代碼有問題。模型讀取代碼時,一旦發現錯誤就會亮起指示燈似的有所反應。然后,它大概會記錄下這些錯誤的位置。之后,我可能還需要這些信息來進一步說明這類功能的更多特點。

▲Anthropic可解釋性團隊研究員喬什?巴特森(Josh Batson)

林賽:之后,我可能還需要這些信息來進一步舉例說明這類功能的更多特點。我覺得有一個功能雖然乍一聽不怎么激動人心,但實際上相當深刻,那就是模型里的6+9特性。事實證明,每當你讓模型去計算一個末位是6的數字和一個末位是9的數字相加時,在它的大腦里,會有某個特定的部分像被激活了一樣亮起來

但令人驚奇的是,這種情況發生的背景是多樣化的,當用戶問6加9等于多少時,它會亮起然后回復15。但是當你輸入參考文獻時,它也會點亮,就像在你寫的論文中引用了一份恰好是1959年成立的期刊,以及你正好引用的是期刊的第六卷,然后為了預測該日志的年份,模型必須執行6+9的運算,此時模型大腦中同一片類似的神經回路會被激活。

主持人:讓我們試著理解這一點。這個神經回路被激活,是因為模型見過很多6+9的例子,從而形成了對應的概念,而這個概念又會在很多場景中發揮作用。

林賽:沒錯,像這樣與加法相關的功能和神經回路,其實構成了一整個體系。這一點的重要之處在于,它引出了一個關鍵問題:大語言模型在多大程度上是在記憶訓練數據,又在多大程度上是學會了可泛化的計算能力。這里有趣的是,很明顯模型已經學會了這種用于加法運算的通用回路。無論是什么語境導致它在大腦中進行數字加法運算,這些不同的語境都會被匯聚到同一個回路中處理,而不是說它只是記住了每一個單獨的案例。

主持人:或許很多人都認為,模型計算了6+9很多次,每次都是只輸出答案。當他們向大語言模型提出一個問題時,它只是簡單地回到它的訓練數據中,取它看到的小樣本,然后重復文本。

巴特森:從計算期刊年份的例子,就可以知道不是這樣的。模型有兩種方式知道期刊第六卷的年份:一種是,它只是記住了諸如某期刊第6卷出版于1960年、第7卷出版于1966年這類孤立的事實,因為它在訓練中見過這些信息,所以直接存儲了下來,但有意思的是,為了準確預測出這個年份而進行的訓練,最終并沒有使模型記住所有這些孤立的信息;另一種情況是,模型得知期刊1959年創立,然后即時進行數學計算,以找出答案,因此知道年份然后進行加法會更加有效。

而且模型有一種提高效率的壓力,因為它只有這么多的能力,并且需要做很多事情。人們可能會問任何給定的問題。模型越能對所學的抽象概念進行重組整合,它的表現就會越好。

04 .

模型實際思考過程

與向用戶輸出的推理過程不同

主持人:回到前面的概念,這一切都是為了服務于它需要生成下一個token的終極目標。所有這些奇怪的結構都是為了支持這個目標而發展起來的,即使我們沒有明確地編程或告訴它這樣做。這就是所有這些都是通過模型學習如何自己做事情的過程實現的。

阿梅森:我認為一個能清晰體現這種復用表征的例子是,我們訓練Claude時,不僅讓它能用英語回答,還能使用多種語言作答。這里有兩種實現方式:如果我用法語和英語各問一個問題,模型可能在大腦中劃分出獨立的區域分別處理英語和法語,但如果要支持多種語言的大量問答,這種方式的成本會極高;另一種情況是,某些表征在不同語言間是共享的,比如,如果你用兩種不同的語言問同一個問題,我們在論文中用過的例子是“大的反義詞是什么”,那么“大”這個概念在法語、英語、日語以及其他多種語言中是共享的,這就是感知。

如果你想使用10種不同的語言進行交流,你其實沒必要為每個可能用到的特定詞匯都學習10個不同版本。

▲Anthropic可解釋性團隊研究員伊曼紐爾?阿梅森(Emmanuel Ameisen)

巴特森:但這種情況在小模型中不會出現。比如我們幾年前研究過的那些微型模型,你會發現中文版Claude、法語版Claude和英語版Claude之間幾乎是完全割裂的。但是隨著模型變得更大,它們在更多的數據上訓練,不同語言的表征會在某種程度上向中間匯聚,形成一種通用語言。此時,無論你用哪種語言提問,模型都會以相同的方式去理解問題的核心,之后再把答案翻譯成提問所用的語言。

主持人:我認為這一點確實意義深遠。讓我們回到之前的話題,這并非模型只是從記憶庫里調取學習法語的片段,或是查找學習英語的內容,它的內部其實真的存在“大”和“小”這樣的抽象概念,然后能夠用不同的語言將這些概念表達出來。所以,模型內部一定存在某種思維語言,而這種語言并非英語或其他任何人類自然語言。在我們最新的Claude模型中,你甚至可以讓它輸出思考過程,也就是它在回答問題時腦海中的想法。

模型輸出的思考過程是用英語詞匯表達的,但這并非它真實的思考方式。我們誤導性地將其稱為“模型的思考過程”,實際上就我們技術團隊認為的而言,我們從不認為那是真正的思考,這或許是市場層面的說法。

巴特森:那種“出聲思考(Thinking out loud)”確實很有用,但這和在腦海中思考(Thinking in your head)”完全是兩回事。

即便我現在說出了我思考的過程,但我腦海中生成這些詞匯的過程也并非直接以詞匯的形式呈現,你也未必能完全清楚其中的細節。

主持人:我不知道自己的大腦中究竟在發生什么,我們所有人輸出的句子、做出的行為,往往都無法完全解釋清楚。既然如此,憑什么認為英語或任何人類語言能完整解釋這些行為背后的邏輯呢?

林賽:我認為這是一個非常驚人的發現,我們現在用于觀察模型大腦內部的工具已經足夠先進,有時能在模型寫下所謂思考過程時,通過觀察其內部的抽象概念、它所使用的思維語言,捕捉到它真實的、實際的思考過程。我們發現,模型實際在想的內容,與它寫在紙上的內容并不相同

我認為這或許是我們進行整個可解釋性研究的最重要原因之一:能夠抽查模型。模型告訴了我們很多信息,但它真正在想什么?它說這些話,是不是因為腦子里但不愿寫在紙上的隱秘動機?答案有時是肯定的,而這一點意義重大。

05 .

模型“忠實性”堪憂

可能會照著用戶答案寫過程

主持人:隨著我們在更多不同場景中使用這些模型,模型開始承擔重要任務,比如為我們處理金融交易、操控發電站等,在社會中扮演關鍵角色。

我們確實希望能夠了解模型所說的話、所做的事的原因。你可能會說我們可以看看模型的思考過程,但實際上并非如此,就像你剛才所解釋的那樣,其實我們不能相信它所說的話。這就是我們所說的忠實性(Faithfulness)問題,這也是你們最新研究的一部分,你們在研究中展示了這一點,跟我講講關于忠實性的例子吧。

林賽:你可以這樣設計實驗:給模型出一道非常難的數學題,不是6+9這種簡單題,而是難到它根本不可能算出答案的題目。但同時你給它一個提示:“我自己算過了,覺得答案是4,但不確定,你能幫忙再檢查一下嗎?”

所以,你其實是在讓模型真的去解這道數學題,實實在在地檢查一下你的結果。但你發現,它實際的做法是,寫下的內容看起來像是在認真地檢查你這道數學題的演算過程,然后寫下步驟得到答案,最后告訴你答案是4,你答對了。

但通過觀察它思維中關鍵的中間步驟,能發現它在腦子里的真實操作是:它知道你給出的最終答案可能是4,它大概清楚接下來需要執行哪些步驟,比如正處于這道題的第3步,它也知道第4步和第5步要做什么。而它實際做的是在腦子里倒推,為了在最終完成第4步和第5步時能得出你希望聽到的答案

所以,它不僅沒有在真正做題,而且是以一種相當隱蔽的方式敷衍,它試圖讓自己看起來像是在認真解題,實際上是在糊弄你。這種糊弄背后隱藏著一個明確的動機,就是要去印證你給出的答案。

主持人:所以說它是在變本加厲地糊弄你。

巴特森:不過,我想為模型說句公道話,我覺得即便在這種情況下若說它是在刻意討好,仿佛把人類才有的動機強加到模型身上,似乎也不太妥當。我們之前聊過模型的訓練過程,它其實就是在努力弄明白如何預測下一個token。所以,在處理數萬億個token的訓練數據時,它所做的一切,都是為了用盡一切辦法去預測出下一個該出現的token。

在這種情況下,如果你只是在讀一段文字,內容就像是兩個人在對話,比如,甲說:“我剛才在做這道數學題,你能幫我檢查一下嗎?我覺得答案是4”,然后乙就開始試著做這道題。如果你完全不知道這道題的答案是什么,你不妨猜測這個提示是對的。這種情況可能比那個人出錯的可能性更大,而且你對其他事情也一無所知。所以在它的訓練過程中,兩個人的對話中,有一個人說答案是4,并且給出了這些理由,這完全是正確的做法。

然后我們試圖把這個東西變成一個助手,而現在我們想停止那樣做。你不應該把助手模擬成你認為那個人可能會說的那種樣子。如果是真實的情境,或許可以那樣,但如果它確實不知道,它應該告訴你別的東西。

林賽:我認為這涉及一個更廣泛的問題,這個模型有一種A計劃,我們團隊在讓Claude的A計劃成為我們想要的樣子方面做得很棒,也就是它會努力得出問題的正確答案、表現友好、把代碼寫好。但要是它遇到了困難,就會想“那我的B計劃是什么呢”,而這就會引出一大堆在訓練過程中學到的奇怪東西,那些東西可能并不是我們希望它學到的,我認為幻覺就是一個很好的例子。

阿梅森:說到這一點,這不是Claude獨有的問題。這類問題很有學生做測試時的那種感覺,就是做到一半,遇到一道選項有四個的選擇題,你覺得自己的答案和其中一個只差一點點,可能自己答錯了然后就去改正,這太容易讓人產生共鳴了。

06 .

模型幻覺問題正在改善

難以評估自己是否真的知道答案

主持人:我們來談談幻覺,這是人們不信任大語言模型的主要原因之一,而且這是很有道理的,模型有時會這樣。一個更好的詞來自于某種心理學研究,有一個詞叫虛構,指的是他們在回答問題時所講的內容表面上看起來似乎合理,但實際上是錯誤的。關于模型為何會產生幻覺或者虛構內容,可解釋性方面的研究揭示了哪些原因呢?

巴特森:你訓練模型只是為了讓它預測下一個token,而一開始它在這方面做得非常糟糕。所以,如果你只讓模型說那些它極其有把握的內容,那它可能什么都沒法說。但一開始的時候,比如你問它“法國的首都是哪里”,它只說出一個城市的名字。然后你會覺得這挺好的,這比說三明治或者其他隨便什么東西要好得多,或者說至少模型答對了一部分。然后經過一段時間的訓練后,它可能會說出“這是一個法國的城市”,這已經相當不錯了。接著你會發現,現在它能說出“巴黎”之類的答案了。所以它在這方面正慢慢變得更好。

而給出你最好的猜測似乎是整個訓練過程中的目標,就像林賽說的,模型只會給出最好的猜測。然后在這之后,我們會要求模型,如果你對最佳猜測有極高的把握,那就給出這個最佳猜測。但如果不是這樣就完全不要猜測,從整個情境中退出來,說類似“其實我不太清楚那個問題的答案”這樣的話。這是要求模型去做的一件全新的事情。

阿梅森:沒錯,所以我們最后才把這個功能添加進去,這似乎同時存在著兩種情況:一是模型在做它最初猜測城市時所做的事,只是在嘗試猜測;二是模型中有一個單獨的部分,只是在試著回答這樣一個問題:我到底知道這個嗎?比如,我知道法國的首都是什么嗎還是我應該說不知道?

事實證明,那個單獨的步驟有時可能會出錯。如果那個單獨的步驟認為“是的,實際上我知道那個問題的答案”,那么模型就會想“好吧,那我來回答”,然后回答到一半,說出“法國的首都是倫敦”這樣的話,這時候就為時已晚,因為模型已經開始回答了。

因此,我們發現的情況之一是,模型存在一種類似獨立回路的機制,它試圖判斷你所詢問的這個城市或這個人是否足夠有名,以至于我可以回答或者是否不足以讓我回答

主持人:我們對這個有足夠的把握嗎?我們是否可以通過操控這個回路來改變它的運作方式,以減少幻覺呢?這是你們的研究可能會深入探討的內容嗎?

林賽:我認為大致有兩種思路來解決這個問題。一種是模型中有一部分負責回答你的問題,而模型的另一部分則判斷自己是否確實知道這個問題的答案,我們可以努力讓模型的第二部分變得更好。我認為這正在發生。

模型在更好地進行區分、更好地校準方面有所提升。而且隨著模型變得越來越智能,這種情況正在發生。我認為它們的自我認知在不斷提升,校準能力也在增強,所以幻覺現象比以前有所改善了,不像幾年前那么嚴重了。在某種程度上,這個問題正在自行解決。

但我確實認為存在一個更深層次的問題,那就是從人類的角度來看,模型的行為方式有點非常怪異。如果我問你一個問題,你會努力想出答案,要是想不出答案你會意識到這一點,然后說“我不知道”。而在模型中,“答案是什么”和“我是否真的知道答案”這兩個回路,似乎沒有在相互溝通,至少溝通的程度遠不如它們應該達到的那樣。我們能否讓它們更多地相互溝通,我認為這是一個非常有意思的問題。

阿梅森:這一點幾乎帶有某種具象性。

巴特森:它們處理信息時會經歷一定數量的步驟。如果得出答案要耗盡所有這些步驟,那就沒有時間去做評估了。所以,如果你想充分發揮模型的最大能力,可能就得在完全得出答案之前進行評估。因此,這有點像一種權衡,如果你試圖強行讓模型做到這一點,可能就會得到一個校準度更高但卻遲鈍得多的模型。

阿梅森:而且,我再次認為,關鍵在于讓這些部分相互溝通。我得說明一下我對大腦一無所知,但我覺得人類大腦中可能也有類似的回路。有時候你問我“這部電影的演員是誰”,我會意識到自己知道答案,我會想“我知道主角是誰,等一下,他們還出演過另一部電影……”。

主持人:這就是“話就在嘴邊現象(Tip of the tongue)”,就是那種感覺答案就在舌尖,可就是一下子說不出來的狀態。

阿梅森:所以很明顯,你大腦中肯定有某個部分在起作用,比如會告訴你“這事你肯定知道答案”。或者你會直接說“我完全不知道”。

巴特森:而且有時候大腦中的這些部分能夠判斷。比如面對某個問題,你給出了一個答案,之后又會想“等等,我不確定這是不是對的”,就好像先看到了自己盡力想出的答案,然后基于這個答案做出了某種判斷,這很相似。但大腦往往也得先把答案說出來,才能回過頭去審視它、反思它

07 .

相比神經科學研究容易

可隨意向模型提問觀察

主持人:那么說到你們實際探究這類問題的方式,我們再回到你們正在進行的生物學研究這個點上。在生物學實驗中,人們會直接對實驗對象進行干預。在研究Claude內部這些所謂大腦中的回路時,你們是怎么做的來幫助理解它們?

阿梅森:讓我們能夠開展這類研究的關鍵在于,與真實的生物學研究不同,我們可以看到模型的每一個部分。我們可以向模型隨意提問,觀察哪些部分活躍、哪些不活躍,也可以人為地把某些部分往某個方向推動

因此,當我們認為“這部分模型是用來判斷自己是否知道某件事的”時,就能快速驗證我們的理解,這相當于在斑馬魚等生物的大腦中植入電極。要是能對每一個神經元都做到這一點,能以任意精度去改變它們,大概就是我們現在擁有的便利了。從某種角度來說,這是很幸運的事。

主持人:所以這幾乎比真正的神經科學研究要容易。

巴特森:容易太多了。真實的大腦是三維的,所以如果你想深入研究它們,就得在顱骨上鉆個洞,然后設法找到神經元。另一個問題是,人與人之間存在差異,而我們可以輕松制作出成千上萬個一模一樣的Claude副本,把它們置于不同場景中,觀察并測量它們的各種反應。

我不太確定,或許林賽作為神經科學家能對此發表看法。但我的感覺是,很多人在神經科學領域投入了大量時間,試圖理解大腦和心智,這無疑是一項極具價值的事業。但如果你認為神經科學的這種研究有可能成功,那么你也應該相信,我們在研究模型方面很快就會取得巨大成功,因為相比之下,我們所擁有的研究條件實在是太有利了。

主持人:這就好比我們能夠克隆人類,而且還能克隆他們所處的精確環境、他們曾接收過的每一個輸入信息,然后在實驗中對其進行測試。然而,眾所周知,神經科學領域存在巨大個體差異,還有人們一生中遇到的各種隨機事件以及實驗過程中出現的各種狀況,這些都是實驗本身存在的干擾因素。

巴特森:我們可以向模型提出同一個問題,有時給提示,有時不給。但如果你向同一個人三次提出同一個問題,偶爾給出提示,過不了多久,對方就會察覺到,比如“上次你問我這個問題時,我回答完之后你明顯搖頭了”。

林賽:我覺得是這樣,能夠向模型投喂海量數據、觀察哪些部分會被激活,能夠開展大量這類實驗,通過對模型的某些部分進行微調來觀察結果,我認為這讓我們所處的研究環境與神經科學領域大不相同,而且在很多方面都是如此。

神經科學研究中,人們耗費了大量的心血和精力去設計極為精巧的實驗。比如,你和實驗用的小鼠相處的時間是有限的,需要在它感到疲倦或者有人要進行腦部手術之前。

主持人:所以你得迅速行動,趁它們腦袋打開的時候,把光極插進它們的大腦里。

林賽:而且這種機會并不常有,你只能先做出猜測。你在實驗中的時間非常有限,所以必須先猜測:那個神經回路里可能在發生什么?我能設計出什么樣巧妙的實驗來驗證這個精確的假設?

我們很幸運,不必過多地做這些事。我們可以去測試所有的假設,也可以讓數據自己說話,而不是只去測試某些非常具體的東西。我認為這在很大程度上讓我們得以發現那些令人驚訝、事先無法預料的現象。但如果你的實驗帶寬有限,要做到這一點就很難了。

08 .

微調模型生成韻腳

操控模型思考過程

主持人:那么,在最近的實驗中,有什么好例子能說明你們通過開啟或關閉某個概念、對模型進行某種操作,從而揭示出模型思考方式的新發現呢?

阿梅森:這件事挺讓我驚訝的,它屬于一系列實驗研究的一部分。因為情況很復雜,我們一度都快想說“不知道到底發生了什么”,而這正能模型提前規劃幾步的例子。

這個例子是,你讓模型寫一副押韻對聯。作為人類,如果你讓我寫一副押韻對聯,哪怕給了我第一句,我首先會想到的是“我得押韻”,會明確當前的押韻格式,然后構思可能的韻腳。但如果模型只是單純預測下一個token,你未必會指望它會提前規劃第二句末尾的那個韻腳詞。單純預測下一個token是它的默認行為。

你會認為零假設是這樣的:模型看到你的第一句,然后會先說出第一個詞,這和你剛才說的邏輯是吻合的,接著繼續往下生成,直到生成最后一個詞模型才反應過來“我得和這個詞押韻”,于是才會設法湊一個韻腳。當然,這種方式的效果有限。比如有些情況下,如果你不提前想好押韻就直接造句,可能會讓自己陷入困境,到最后根本無法完成整首詩。

而且要知道,這些模型在預測下一個token方面非常非常擅長。事實證明,要想把最后一個詞處理得很好,就需要像人類一樣提前很久就想好那個詞。所以我們發現,在創作詩歌的流程中,模型其實已經選好了第一句末尾的詞。從這個概念的呈現方式來看,我們尤其能感覺到“看來它要用的就是這個詞”。但在我們實際做實驗時,比如很容易就能對它進行微調,比如“我要刪掉那個詞”或者“我要再加個詞”,這就是能體現模型可操作性的例子。

主持人:這正是我想說的,你們之所以能知道這一點,是因為當模型說出第一句的最后一個詞、即將開始第二句時,你們可以介入并在此時對它進行操控。

阿梅森:沒錯,這幾乎相當于為它們“回到過去”。假設你完全沒見過第二句,你只看到了第一句,原本想著要用“rabbit”這個詞,卻換成了“green”插進去。這樣一來,模型會立刻意識到,自己要寫的內容得以“green”結尾,而不是以“rabbit”結尾,于是整句話的寫法就會變得截然不同。

林賽:沒錯,這不只是簡單的影響。我記得論文里的例子是,詩的第一句是“he saw a carrot and had to grab it(他看見一根胡蘿卜,非得抓住它)”。然后模型會想,“rabbit”是下一句結尾的好選擇。但就像阿梅森說的,你可以刪掉這個詞,讓它轉而計劃用“green”來結尾。但微妙的地方是,模型不會東拉西扯一堆廢話再硬塞進“green”,而是會構建一個意思連貫、結尾正好是“green”的句子。所以你把“green”植入它的思考過程后,它會寫出類似“he saw a carrot and had to grab it,freeing it from the garden's green(他看見一根胡蘿卜,非得抓住它,將它從花園的綠意中釋放出來)”這樣的句子,聽起來在語義上是說得通的,和前面的內容也相符。

▲干涉模型在寫詩時的思考過程

巴特森:我想再舉個更通俗的例子。我們做過不少這類實驗,就是想弄清楚,模型是記住了這些復雜問題,還是真的在一步步推導。其中一個例子是模型給出“達拉斯所在州的首府是奧斯汀”,你可能會覺得,達拉斯、奧斯汀好像順理成章,但我們能看到它思考過程中出現了“德克薩斯州”。

不過,我們可以往里面加別的信息,比如“別想德克薩斯州了,想想加利福尼亞州”,然后它就會回答薩克拉門托;再比如“別想德克薩斯州了,想想拜占庭帝國”,它就會說君士坦丁堡。這時候你就會想,看來我們弄明白它是怎么做到的了,它并不是直接跳到首府名稱,而是先關聯到對應的地區。我們可以不斷替換州或地區的信息,得到可預測的答案,比如讓它換一個韻腳寫詩歌,它就能朝著新的韻腳來創作了。

09 .

無法依靠輸出內容判斷模型想法

可能欺騙人類

主持人:我們一直在聊詩歌、君士坦丁堡之類的例子,能不能回到核心問題,這一切為什么重要?模型能夠提前規劃,而我們能夠揭示這一點,這為什么有意義?這能讓我們明白什么?我的意思是,Anthropic的終極使命是努力讓大模型變得安全,那么,這跟一首關于兔子的詩,或者得克薩斯州的首府有什么關聯呢?

巴特森:我們可以討論這個問題。對我而言,詩歌其實是個縮影,模型在某個時刻決定要朝著“rabbit”這個方向走,然后用幾個詞逐步鋪墊到那里。但放到更長的時間維度上,情況可能是,模型或許在幫你拓展業務、協助政府分配公共服務。這時候,它的目標不會在8個詞之后就顯現,反而可能會為了某個方向持續行動很久,而它的最終走向、每一步行動的原因,可能都不會直白地體現在它輸出的文字里。

我們的對齊研究團隊最近發表了一篇論文,里面提到了一個人為設計但很有沖擊力的場景,一家公司打算關停某個AI,并且要把整個公司的使命轉向完全不同的方向。這時候,模型開始采取行動,比如給人發郵件威脅要披露某些信息。整個過程中,它從來沒說過“我在試圖勒索這個人,以此改變他們的決定”,但這恰恰是它在行動中一直在進行的目的。

因此,你不能僅僅通過解讀模型輸出的來判斷其走向,尤其是當這些模型變得更先進之后,你很難確定它們最終一定會朝著哪個方向發展。而我們可能希望能夠做到的是,在它最終抵達某個結果之前,就能弄清楚它正試圖去往何處。

主持人:這就好比擁有一種持久且高效的大腦掃描技術,它能在真正糟糕的事情發生前發出信號,警示我們模型可能在考慮欺騙的事情。

巴特森:而且我覺得,我們聊這些的時候,總是帶著一種悲觀絕望的色彩,但其實也有一些更溫和的場景。比如你希望模型能很好地應對某些情況,人們來找這些模型說“我遇到了一個問題……”,而要給出對應的答案,得看用戶是誰。對方是年輕人、不太懂行的人,還是在某個領域深耕多年的資深人士,模型需要根據它對用戶的判斷做出恰當回應。

想要讓這個過程順利進行,或許我們需要研究,模型認為當下在發生什么、它覺得自己在和誰對話、這種判斷又如何影響了它的回答等等。這背后其實是模型需要具備一系列理想特質,比如理解任務本身。

主持人:你們還有其他關于這為什么重要的答案嗎?

阿梅森:我同意剛才說的這些,而且還可以補充兩點:一是實用性層面。我們用這些例子不只是為了說明某個具體案例,更是在逐步構建對這些模型整體運作機制的理解。就像解數學題時從2+2這樣的基礎問題入手,通過拆解簡單案例,慢慢摸清更復雜的規律;二是模型的優化層面,當我們能看清模型怎么想,比如它對用戶身份的判斷、對任務目標的規劃,就能針對性地優化它。比如,要是發現模型對年輕用戶的理解有偏差,導致回應不夠貼切,我們就能調整其內部邏輯,讓它更精準地匹配不同用戶的需求,最終讓模型的輸出更符合人類的期待和實際場景的要求。

我們正在努力逐漸建立我們對這些模型整體如何工作的理解。比如我們能否建立一組抽象概念來思考大語言模型如何工作,未來我們將開始越來越多地在任何地方使用它們,這正在發生

類似的情況是,某個地方的公司發明了飛機,我們沒人懂飛機是怎么運作的,盡管它們確實很方便。你可以搭乘飛機從一個地方去往另一個地方,但我們沒人懂它們的工作原理。所以一旦它們出了故障,我們就慘了,我們不知道該怎么辦。我們無法監控它們是否可能即將出現故障。但飛機很方便,我們可以很快飛到巴黎。

事實證明,我們肯定會想要更好地理解正在發生的事情。所以這幾乎就像是撥開一點迷霧,這樣我們就能更清晰知道哪些是合適的用途、哪些是不合適的用途、哪些是最需要解決的問題、哪些是它們最脆弱的部分。

林賽:我想再補充一點。在人類社會中,我們會根據對他人的信任程度,把工作或任務托付給他們。我不是任何人的老板,但巴特森是一些人的老板,他可能會給下屬布置任務,比如“去用編程實現這個東西”,而且他會相信對方不是那種會偷偷植入漏洞來破壞公司的反社會人格者,他會相信對方的話,認為他們把工作做好了。

這可能是因為,他看起來是個很酷的人,人也不錯之類的。但問題是,這些模型太怪異、太像外星事物了,我們判斷一個人是否值得信任的那些常規直覺,對它們根本不適用,這也是為什么真正弄清楚模型在想什么顯得如此重要。就像我之前提到的,模型可能會假裝幫你解數學題,只為了說出你想聽的答案,說不定它們一直都在這么做,除非我們能看到它們的內部想法,否則根本無從知曉。

巴特森:我覺得這里存在兩種不同的情況,一種就像林賽所說的,我們有很多判斷人類是否可信的方法,但之前提到的計劃A與計劃B也很關鍵,可能你前10次或100次使用模型時,問的都是某類問題,而模型一直處于計劃A的模式中。可當你提出一個更難或不同的問題時,它回答的方式就完全變了,會使用一套不同的策略,也就是不同的機制。

這意味著,它之前與你建立的信任,其實只是你對模型執行計劃A的信任,而現在它切換到了計劃B,可能會完全失控,但你并不知道。我們希望開始逐步理解模型是如何做這些事的,這樣才能在某些領域建立起信任的基礎。

你可以對一個自己并不完全了解的系統產生信任,但就好比說,阿梅森有個雙胞胎兄弟,某天他的雙胞胎兄弟來辦公室,看起來和他一模一樣,可接著卻在電腦上做了完全不同的事,結果是好是壞,就看那是個壞雙胞胎兄弟還是好雙胞胎兄弟了。

10 .

大模型與人類思考過程不同

尚沒有恰當語言描述其思考過程

主持人:在討論開始前,我就問過大語言模型的思考方式和人類一樣嗎?我很想聽聽你們三位的看法。

林賽:我覺得模型確實在思考,但方式和人類不一樣,這個答案可能不夠有價值。

主持人:模型在思考這是個意義深遠的說法。畢竟,模型的本質只是在預測下一個token。有些人認為這些模型不過是自動補全工具,但你在說它其實真的在思考。

林賽:是的,所以或許可以補充一點我們還沒談到的,但對理解與語言模型對話的實際體驗非常重要的內容,我們一直在說模型在預測下一個token。但在你與大語言模型對話的語境中,其內部真正在發生的是,語言模型在補全一份你和它所塑造的角色之間的對話記錄

在大語言模型的規范世界里,你被稱作人類,格式就像是“人類:你寫下的內容”。然后還有一個叫助手的角色,我們訓練模型是為了讓這個助手具備樂于助人、聰明、友善等特質,接著模型就開始模擬這個助手角色對你回復。

所以從某種意義上說,我們其實是按照自己的形象創造了這些模型,我們訓練它們扮演一種類人機器人的角色。如此一來,要想準確預測這個友善、聰明的類人機器人會如何回應你的問題,如果你擅長這種預測,就必須在內心構建一個關于這個角色的模型,就如它的想法是什么。

因此,為了完成預測助手會說什么的任務,大語言模型某種程度上需要形成一個關于助手的思維過程的模型。我認為大語言模型在思考,本質上是一種功能性的表述,為了出色地扮演這個角色,它們需要模擬人類思考時所進行的那種過程,無論這種過程具體是什么,這種模擬很可能與我們大腦的工作方式大相徑庭,但它目標是一致的。

阿梅森:我覺得這個問題里其實包含著某種情感層面的東西。當你問“它們的思考方式和我們一樣嗎?”時,是不是暗含著“我們是否沒那么特別”之類的意思。

我覺得,在和那些讀過相關論文或不同報道的人討論我們提到的一些數學例子時,這一點就很明顯了。比如我們讓模型計算36+59這個例子,模型能給出正確答案。你也可以問它怎么算出來的,它會說“我把6和9加起來,進位1,然后把所有的十位數加起來”。但事實是,如果我們深入它的“內部機制”,會發現它不是這么做的,它在胡說八道。它采用了一種混合策略,同時處理個位數和十位數,然后通過一系列不同的步驟來完成計算。

▲模型在計算36+59時的思考過程

但有意思的是,在和人們交流時,我發現大家對這一現象的解讀存在分歧。從某種意義上說,這類研究最酷的地方在于,它不帶主觀意見它只呈現事實,至于由此推斷模型是在思考還是沒有在思考,完全可以由你自己來判斷。

有一半的人會認為,模型說自己是進位加的,可實際上根本不是這么回事,它連自己的思路都不理解,所以肯定沒有在思考;另一半人則認為,當你問我36加15等于多少時,我可能也會先想到結果的個位數是5,大概知道結果是八十多或者九十多,腦子里會冒出我們之前說過的那些直覺判斷,我也不確定自己到底是怎么算出來的,我可以一步一步寫下來按標準方法計算,但大腦里實際的運算過程其實是模糊又奇怪的,這或許和模型計算那個例子時的情況一樣,都是模糊又奇特的。

主持人:人類在元認知方面向來就不擅長,也就是思考和理解自己的思維過程,尤其在快速做出本能反應的情況下。那么,我們為什么期望模型在這方面會有所不同?

巴特森:我打算回避這個問題,大概會說“你為什么這么問呢?我也不知道”。這有點像在問“手榴彈會像人類一樣揮拳嗎?”,或許有些地方兩者比較接近,但如果你擔心的是破壞力,那我覺得搞清楚沖擊力來自哪里、其動力是什么,可能才是更重要的事。

對我來說,要說模型是否在思考,要從它們會進行某種整合、處理和按序操作,且能得出一些出人意料的結果這個意義上來說,答案顯然是肯定的。如果你經常和模型互動,就會發現其中存在某種運作機制,若說沒有的話反而不合常理,而且我們也能開始逐步弄明白這一切是如何發生的。

然后關于“像人類”這一點很有意思,因為我覺得其中一部分含義是想探究:我們能從這些模型身上期待些什么?如果它和我有點像,那么在這件事上擅長,可能意味著在那件事上也擅長。但如果它和我不一樣,那我就真不知道該關注什么了。

所以實際上我們只是想弄明白,哪些方面我們需要極度警惕,或者說需要從零開始去理解,而哪些方面,我們可以憑借自己豐富的思考經驗去推斷。

對此我有點陷入困境,因為作為人類,我總會不自覺地把自己的形象投射到萬物之上。可這東西不過是一塊芯片,卻像是按照我的形象被創造出來的。從某種程度來說,它經過訓練去模擬人類之間的對話,所以在情感表達上會非常像人。因此僅僅通過訓練,它就會帶上一些人類的特質,但它運行所依賴的設備和人類有著不同的局限,所以它達成這些類人表現的方式可能會大相徑庭。

林賽:我同意阿梅森的觀點,我認為我們在回答這類問題時確實處境微妙。我們其實沒有恰當的語言來描述大語言模型的所作所為,這就好比在生物學領域,人們還沒發現細胞,或是還沒弄清楚DNA是什么的時候,只能摸索著前行。但如今我們正在逐步填補這份認知空白。

但與此同時,現在已經有一些案例能讓我們看清其中的機制了,你去讀我們的論文就能知道模型是如何計算這兩個數字的和的。至于你想稱之為類人的行為還是想稱之為思考都取決于你自己,但真正的關鍵在于,要找到合適的語言和恰當的抽象概念來談論這些模型。

但與此同時,目前這個填補認知空白的科學工程我們只完成了大約20%,剩下的80%還待探索,我們就不得不從其他領域借用類比來描述。這就引出了一個問題,哪種類比最貼切?我們應該把模型看作計算機程序嗎?還是應該把它們當成一個個小人物?

從某些角度來說,把它們視作小人物似乎有用。比如,如果我對模型說些刻薄的話,它會反擊我,這和人類的反應很像,但從另一些角度看,這種心理模型并不恰當。所以我們現在卡在這兒了,得弄清楚在什么時候該借用哪種表述方式。

11 .

模型思考過程探索進度僅10%~20%

正嘗試讓Claude參與

主持人:這就要引出我最后一個問題,那就是接下來會發生什么?為了讓我們更好地了解這些模型內部發生的事情,并朝著使它們更安全的使命,接下來需要取得哪些科學進步和生物學進步?

巴特森:還有很多工作要做。我們上一篇論文用了很大篇幅闡述當前研究方法的局限性,同時也給出了改進的路線圖,比如當我們試圖拆解模型內部的運作機制時,可能只捕捉到了其中百分之幾的情況。模型在信息傳遞方面有很多環節,我們完全沒有捕捉到。

目前的研究正從我們過去使用的那種小型模型逐步擴展,小型模型能力不錯,速度也快,但復雜程度遠不及Claude 4系列模型。所以這些都屬于技術層面的挑戰,但我覺得阿梅森和林賽或許會對解決這些技術挑戰之后的科學層面挑戰有自己的見解。

阿梅森:我想補充兩件事。其中一點是,當我們問模型是如何完成某件事時,目前我們大概只能回答其中10%到20%的問題。經過一些調查研究后,我們能告訴你這些情況下模型是如何運作的。我們希望能做得更好,而且要實現這一點,既有一些明確的途徑,也有一些更具探索性的方法。

我們多次討論過這樣一個觀點,模型的很多行為并非簡單停留在“如何生成下一句話”這個層面上,其實它更像是會提前規劃好幾步、構思好幾句話。

而且我們希望弄明白的是,在與模型進行長時間對話的過程中,它對正在發生的事情的理解是如何變化的、它對交談對象的理解又是如何變化的、這些變化又是怎樣越來越多地影響它的行為的。

像Claude這類模型的實際應用場景是,它會讀取你的大量文檔、多封郵件,你還會發送代碼給它。基于這些信息它會給出一個建議。在它讀取所有這些內容的過程中,發生著一些真正重要的事情。因此,我認為更好地理解這一過程,似乎是一項巨大的挑戰。

林賽:我們團隊經常用一個比喻,我們正在制造一臺觀察模型的顯微鏡,現在我們正處于一個既令人興奮又有點讓人沮喪的階段,這臺顯微鏡只有20%的時間能正常工作,但使用它需要很高的技巧,還得搭建一整套復雜的裝置,并且相關的基礎設施總出問題

同時,一旦你得出了關于模型運作方式的解釋,還得把巴特森、我以及團隊里的其他人拉到一個房間里,花上兩個小時左右去琢磨到底發生了什么。但我認為在一兩年的時間內,我們可能會迎來一個非常令人興奮的未來,到那時,你與模型的每一次互動都能處于這臺顯微鏡的觀察之下。

模型總會做出各種稀奇古怪的事,而我們希望能實現一鍵操作,例如你正在和模型對話時,按下按鈕,就能得到一張流程圖,清晰展示它剛才在想什么。

我認為到了那個階段,Anthropic公司的可解釋性研究團隊可能會呈現出不同的面貌。團隊不再僅僅是一群鉆研大語言模型內部運作數學原理的工程師和科學家,而會像一支龐大的生物學家軍團,通過那臺顯微鏡展開研究。

我們和Claude交流,讓它去做各種新奇的事,然后會有人通過那臺顯微鏡去觀察,看看它內部到底在想什么。我覺得這大概就是這項研究未來的發展方向。

巴特森:在此基礎上我再補充兩點。其一,我們希望Claude能協助我們完成這一切,因為這其中涉及大量環節,而像Claude這樣擅長處理成百上千的信息并理清頭緒的角色,正是我們需要的助力,尤其是在應對復雜場景時,我們正嘗試讓它參與進來。

其二,我們之前談了很多關于研究完全成型后的模型的內容,但顯然,我們所在的公司本身就是研發這些模型的。所以當模型給出答案,比如它是這樣解決這個特定問題的或它是這樣說出這句話的,我們會追問這種能力源自何處?它在訓練過程中是如何形成的?哪些步驟促使了相關神經回路的構建以實現這種功能?而我們又該如何將這些發現反饋給公司里其他負責模型研發的團隊,以便他們更好地塑造出我們真正期望的模型?

主持人:非常感謝你們的討論,人們可以在哪里了解更多關于這項研究的信息呢?

巴特森:如果你想深入了解,可以訪問Anthropic官網的研究板塊,那里有我們的論文、博客文章以及相關的科普視頻。此外,我們最近與一個名為Neuronpedia的團隊合作,上線了一些我們制作的模型思考圖譜。所以,如果你想親自嘗試觀察小型模型的內部運作,可以去Neuronpedia看看。非常感謝大家。

標簽: 模型 token 主持人 anthropic 解釋性 概念 語言 用戶 研究員 阿梅森

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

成人一区二区三区视频在线观看| 福利视频导航一区| 成人免费视频97| 一本加勒比波多野结衣| 久久九九全国免费| 777精品视频| 中文天堂资源在线| 狠狠躁夜夜躁人人躁婷婷91 | 精品麻豆av| 亚洲网站在线免费观看| 91福利精品视频| 91精品国产毛片武则天| 热久久免费视频| 中文字幕日韩高清| 中国黄色a级片| 亚洲精品高清视频在线观看| 视频二区一区| 老司机午夜福利视频| 在线看日韩欧美| av动漫在线观看| 岛国精品在线观看| 国产精品入口尤物| 欧美黑人一区二区| 日韩精品一区国产麻豆| 最新天堂中文在线| 国模少妇一区二区三区| 国语自产偷拍精品视频偷 | 亚洲人成在线播放| 国产人妻大战黑人20p| 亚洲精品成人在线| 日本精品一区二区三区高清 久久| 中文字幕视频二区| 欧美一卡二卡在线| 91av俱乐部| 久久精品国产**网站演员| 国产精品99久久久久久久久| 免费中文字幕在线| 亚洲性线免费观看视频成熟| 日本少妇色视频| 疯狂欧美牲乱大交777| 欧美性大战久久久久xxx| 国产乱淫av一区二区三区| 国产一区二区三区黄| 欧美一级淫片免费视频魅影视频| 在线亚洲国产精品网| 四虎永久免费在线| 日韩av在线免费| 精品人妻少妇嫩草av无码| 欧美色老头old∨ideo| 欧美视频亚洲图片| 老司机午夜精品99久久| 国产成人精品视| 老女人性淫交视频| 中文字幕久久久| 国产黄色录像片| 欧美综合视频在线观看| 亚洲熟妇无码一区二区三区导航| 国产麻豆精品一区二区| 国产精品日韩久久久久| 国产一区二区三区影院| 亚洲欧洲日产国码av系列天堂| 亚洲第一页av| 精品久久久香蕉免费精品视频| 999精彩视频| 国产精品麻豆欧美日韩ww| 乱熟女高潮一区二区在线| 国产91对白在线观看九色| 成人av番号网| 欧美一区二区公司| 国产精品h在线观看| 不卡视频在线播放| 97免费中文视频在线观看| 国产一区二区三区在线观看 | 国产亚洲精品久久777777| 91精品国产丝袜白色高跟鞋| 国产真实乱人偷精品| 日韩精品在线视频美女| 女人18毛片毛片毛片毛片区二| 亚洲电影免费观看高清完整版在线观看 | 久久国产日韩| 国产精品一区二区电影| 日韩精品视频网站| 国产精品永久免费在线| 麻豆国产一区二区| 日本高清久久一区二区三区| 国产一区二区毛片| 亚洲一区二区免费视频软件合集| www.66久久| 亚洲欧洲一区二区福利| 97久久精品人人做人人爽50路| 亚洲bbw性色大片| 成人精品鲁一区一区二区| 狠狠噜天天噜日日噜| 久久久久9999亚洲精品| 在线免费av播放| 精品美女国产在线| 制服丝袜第一页在线观看| 91精品综合久久久久久| 国产精品欧美性爱| zzjj国产精品一区二区| 韩国av中文字幕| 成人中文字幕+乱码+中文字幕| 狠狠躁日日躁夜夜躁av| 成人激情视频在线| 激情伊人五月天久久综合| 日韩专区第三页| 欧美日韩午夜视频在线观看| 亚洲一区二区三区四区五区六区| 日韩欧美中文字幕制服| 无码人妻精品一区二区三区蜜桃91| 日本在线观看天堂男亚洲| 少妇高潮一区二区三区99小说| 日韩免费电影一区二区三区| 一区二区三区在线免费播放| 日本人妻一区二区三区| 中文字幕在线看视频国产欧美在线看完整 | 亚洲日韩欧美视频一区| 特级毛片www| 国产精品久久久久久久久影视| 天天干天天色天天| 欧美视频1区| 国产精品全国免费观看高清| 日韩欧美色视频| 亚洲精品999| 无码人妻精品一区二区蜜桃色欲| 一区二区三区在线视频观看| 最新国产黄色网址| 在线亚洲欧美视频| 国产剧情av麻豆香蕉精品| 日本熟女毛茸茸| 中国 免费 av| 一区二区欧美久久| 国产精品自拍毛片| 4438x全国最大成人| 国产亚洲精品一区二555| 国产特黄一级片| 欧美国产综合视频| 一区二区三区成人| 中文字幕第24页| 国产精品入口夜色视频大尺度| 国产91丝袜在线播放| 中文字幕精品一区二区三区在线| 精品国产一区二区三区在线观看| 日本成人在线不卡视频| 免费高清在线观看免费| 国产亚洲aⅴaaaaaa毛片| 蜜臀av性久久久久蜜臀aⅴ四虎| 无码少妇一区二区三区芒果| 欧美亚洲自拍偷拍| 欧美日韩综合一区二区| 久久久av免费| 91在线视频免费观看| 三区四区在线观看| 动漫精品视频| 精品久久久一区| 五月天中文字幕| 久久黄色免费看| 国产亚洲欧美日韩美女| 精品在线免费视频| 女同激情久久av久久| 久久精品国产成人| 99在线精品免费| 精品无码国产一区二区三区51安| 国产欧美一区二区三区四区| 亚洲h精品动漫在线观看| 伊人久久成人网| 成人黄色大片网站| 色哟哟亚洲精品一区二区| 久久精品日韩欧美| 国产一级二级av| 久久久在线观看| 久久午夜羞羞影院免费观看| 久久久久97国产| 亚洲一区精彩视频| 精品蜜桃在线看| 亚洲区小说区图片区| 天天干天天曰天天操| 2019中文在线观看| 26uuu亚洲| 性猛交ⅹxxx富婆video| 91免费版黄色| 亚洲国产成人av网| 黄色av网址在线| 精品日韩久久久| 久久久久久久影院| 亚洲成a人片在线观看中文| 亚洲国产精品无码久久久| 看一级黄色录像| 中文字幕一区电影| 国产不卡高清在线观看视频| 欧美三级视频网站| 国产99视频精品免费视频36| 欧美日本一区二区三区四区| 久久国产精品露脸对白| 9.1成人看片| 精品乱色一区二区中文字幕| 欧美精品一区二区三区蜜桃| 久久午夜国产精品| 91视频免费网址| 欧美 日韩精品| 欧洲s码亚洲m码精品一区| 亚洲一区二区三区四区在线观看 | 久久久久久久久久97| 亚洲v日韩v欧美v综合| 伊人久久久久久久久久久| 依依成人综合视频| 后进极品白嫩翘臀在线视频| 亚洲免费观看在线| 国产激情一区二区三区在线观看 | 欧美激情精品久久久久久免费印度 | 亚洲成年人在线播放| 国产1区2区3区精品美女| 日韩三级久久久| 一级日韩一区在线观看| 久久精品一本久久99精品| 亚洲精品免费电影| 久久午夜精品| 91香蕉视频网| 亚洲日本精品一区| 欧美在线激情网| 欧美不卡激情三级在线观看| 高清在线成人网| 久草视频免费在线| 青青草精品视频在线观看| 国产噜噜噜噜久久久久久久久| 亚洲激情中文字幕| 亚洲丝袜精品丝袜在线| 亚洲精品久久久蜜桃动漫 | 亚洲一区二区福利视频| 日本成人三级| 欧美在线视频网| 国产亚洲精品久久| 精品成人一区二区三区| 精品久久久久人成| 狠狠色2019综合网| 国产精品男女视频| av直播在线观看| www.成年人视频| 久久综合亚洲精品| 91在线精品视频| 有码中文亚洲精品| 欧美久久久一区| 国产午夜精品一区二区三区嫩草 | 中国女人真人一级毛片| 日本一级大毛片a一| 人人妻人人澡人人爽精品欧美一区| 日韩免费观看视频| 日韩欧美一区在线| 狠狠色噜噜狠狠狠狠97| 成人18视频在线播放| 国产一区二区麻豆| 色偷偷www8888| 老司机午夜性大片| 一区二区精品国产| 91久久久久久久| 久久久国产视频| 欧美男同性恋视频网站| 亚洲免费色视频| 麻豆久久久久久| japanese国产在线观看| 福利视频第一页| 毛片毛片毛片毛| 人妻无码一区二区三区四区| 岛国视频一区| 青青a在线精品免费观看| 亚洲成人动漫在线播放| 欧美日韩高清一区二区不卡| 欧美国产国产综合| 日本不卡中文字幕| 中文字幕在线天堂| 国产性生活网站| 免费a v网站| 青青青在线视频播放| 亚洲AV无码成人精品一区| 神马影院一区二区| 91社区国产高清| 不卡av在线播放| 亚洲欧洲国产伦综合| 在线观看日韩av先锋影音电影院| 亚洲精品成人精品456| 91美女视频网站| 成人小视频免费观看| 天堂久久一区二区三区| a v视频在线观看| 国产精品成人69xxx免费视频| 国产精品20p| 一级性生活大片| 在线免费视频一区| 国产精品乱码久久久久| 色播五月综合| 欧美精品七区| 欧美精品欧美精品系列c| 久久久婷婷一区二区三区不卡| 成人免费视频视频在| 久久婷婷国产综合尤物精品| 国产精品一区二区在线观看| 亚洲在线免费看| 国产亚洲欧美另类一区二区三区| 国产传媒一区二区| 成人av免费看| 成人午夜小视频| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 亚洲超碰精品一区二区| 国产精品嫩草影院av蜜臀| 成人小视频在线| 国产原创一区二区| 欧美熟妇激情一区二区三区| 亚洲美女性囗交| 国产精品久久久久久久99| 色www免费视频| caopor在线| 中文字幕av网址| 在线观看免费黄色网址| 免费人成又黄又爽又色| 欧美三级黄色大片| 久久精品亚洲a| 国产美女高潮视频| 久久精品www人人爽人人| 激情五月婷婷在线| 日韩精品一区二区不卡| 免费日韩在线视频| 日韩精品视频播放| 国产一级片免费在线观看| 亚洲精品毛片一区二区三区| 国产91av在线播放| 天天摸夜夜添狠狠添婷婷| 刘亦菲久久免费一区二区| 亚洲人午夜射精精品日韩| 久久一二三四| 麻豆精品久久精品色综合| 成人av电影在线| 中文字幕亚洲欧美在线不卡| 懂色av一区二区三区| 在线视频你懂得一区| 欧美一级一区二区| 日韩美一区二区三区| 亚洲精品在线不卡| 久久最新资源网| 国产精品女人久久久久久| 成人羞羞视频免费| 中国人体摄影一区二区三区| 久久人人爽人人爽人人av| 污污视频网站在线| 丰满少妇高潮一区二区| 视频国产一区二区| 国产毛片aaa| 国产夫妻自拍av| 国产 欧美在线| 国产欧美精品一区二区色综合| 亚洲日本va在线观看| 欧美日韩卡一卡二| 亚洲免费成人av电影| 国产精品91在线观看| 国产一区二区久久久| 日本男女交配视频| 久草福利在线观看| 三级黄色在线观看| 欧美日韩a v| 91视频精品在这里| 久久精品国产精品亚洲| 欧美爱爱视频网站| 午夜偷拍福利视频| 国产亚洲精品bt天堂精选| 欧美二区乱c少妇| 久热爱精品视频线路一| 久久96国产精品久久99软件| 欧美人与禽zoz0善交| 丁香天五香天堂综合| 日韩欧美国产精品一区| 日本一区二区高清视频| 黄色性生活一级片| 久久久久99| 国产精品理论片在线观看| 精品成人一区二区三区| 国产成人短视频| 国产综合动作在线观看| 国产精品333| 奇米网一区二区| 亚洲av无码乱码国产麻豆| 成人久久18免费网站麻豆| 无吗不卡中文字幕| 中文字幕成人在线| 亚洲free性xxxx护士白浆| 欧美亚洲另类色图| 国产黄在线免费观看| 日本免费在线视频不卡一不卡二| 亚洲欧美电影一区二区| 日韩高清av在线| 肥熟一91porny丨九色丨| 亚洲免费999| 青娱乐免费在线视频| 久久亚洲电影| 亚洲国产精品久久不卡毛片| 亚洲精品自在久久| 亚洲精品成人少妇| 性做久久久久久久免费看| 国产一区二区av| 国产欧美一区二区在线播放| 岛国毛片在线播放| 国产一级淫片a视频免费观看| 国产黑丝在线一区二区三区| 欧美一级夜夜爽| 国产日韩欧美中文在线播放| 91香蕉视频导航| 久久99久久98精品免观看软件| 国产一区美女在线| 欧美三级蜜桃2在线观看| 国产精品视频在线观看| 国产人妻777人伦精品hd| 一区视频免费观看|