![]()
從 1000 億個神經元到大語言模型,一份神經漫游指南。
文丨曾夢龍
編輯丨黃俊杰
舊金山街頭,腦科學家特倫斯·謝諾夫斯基(Terrence Sejnowski)跟老友在路邊散步。走著走著,兩人停下對視,異口同聲地說:“我們贏了!”
這一幕發生在幾年前,他身邊的人是 “深度學習之父”、計算機科學家杰弗里·辛頓(Geoffrey Hinton)。兩人都出生于 1947 年,相識與合作近半個世紀。在 1985 年,他們合作提出了玻爾茲曼機,把神經網絡和概率建模結合在一起,為后來的深度學習奠定基礎。
當時正值 AI 研究低谷期,主流學術界用符號和邏輯研究 AI,不斷碰壁。許多研究人員對有生之年見到重大突破感到絕望。兩人希望從人腦的運作方式尋找 AI 研究的靈感,這被建制派認為走上了一條不可能成功的道路。
ChatGPT 誕生,無數大語言模型涌現,改變了世界對人工智能的預期,證明了神經網絡研究的價值。辛頓也因 AI 研究在 2024 年獲得諾貝爾物理學獎。
“我們當時就像在恐龍腳下生存的小小的哺乳動物。誰料到恐龍很快就會滅絕?” 謝諾夫斯基在今年 9 月接受《晚點 LatePost》視頻訪談說。他身穿淺藍色襯衫、戴橢圓形眼鏡,精神十足,看不出已經 78 歲。
得獎后,辛頓希望兌現兩人多年前的約定——若其中一人獲得諾獎,另一人可以分享獎金。謝諾夫斯基拒絕了好意,于是辛頓用一部分獎金為神經信息處理系統大會(NeurIPS)設立一個 “謝諾夫斯基-辛頓獎”,表彰提出人類大腦工作原理新發現的研究者。NeurIPS 是全球規模最大的 AI 學術會議,謝諾夫斯基從 1993 年擔任該會議主席至今。
謝諾夫斯基開創了計算神經科學(Computational Neuroscience)領域,著有經典教材《計算大腦》(The Computational Brain)。他從這個進路取得豐厚成果,比如多層神經網絡起源于大腦皮層的并行計算原理;語音識別里的獨立分量分析源自大腦樹突中的信號傳輸規律;強化學習背后的獎勵預測誤差,依據的是大腦中多巴胺的作用機制。這些算法都為現在的 AI 發展打下基礎。
謝諾夫斯基也從邊緣走向主流,現在是索爾克生物研究所(Salk Institute for Biological Studies)弗朗西斯·克里克講席教授。他得過神經科學領域的最高獎項 “大腦獎”,是寥寥幾個同時擔任美國四院院士(國家科學院、國家工程院、國家醫學院、藝術與科學學院)的學者之一。這也是對敢于創新和跨學科研究的獎賞。
2019 年和 2025 年,謝諾夫斯基分別出版了《深度學習》(The Deep Learning Revolution)和《大語言模型》(ChatGPT and the Future of AI)的中文版,從親歷者視角講述 1956 年誕生的 AI 怎樣走上歧路,如何走到今天的正道,未來又可能走向何方。
以下是《晚點 LatePost》和謝諾夫斯基的對話。
大模型是魔法,但它的能力也取決于使用者
晚點:《大語言模型》是我讀到第一本人類與 AI 合作完成的書籍,你何時萌生寫它的想法?
謝諾夫斯基:2022 年 11 月,就像所有人一樣,ChatGPT 的出現令人大吃一驚。它仿佛是外星生物降臨地球,用英語與我們對話。不知道你是什么感想?
晚點:像是魔法。
謝諾夫斯基:是的,這個比喻很貼切。阿瑟·克拉克(科幻作家、《2001 太空漫游》作者)曾說:“高度發達的技術與魔法毫無二致。”
大語言模型不是外星文明的杰作,但人類當前的困難在于,能否理解這項基于人腦的新技術?盡管人腦仍是未解之謎,我們也沒有完全掌握新技術的運作原理,但現在能大幅優化它,避免各種惡性行為。
不過,我們還是為大語言模型的缺陷苦惱,比如它容易產生 “幻覺”。雖然我認為 “幻覺” 這個詞并不準確,它不是服用藥物后,大腦陷入天旋地轉的怪異狀態。相反,它展現出了創造力,給出的答案可能比許多作家更出色。
對于新聞報道而言,幻覺是需要避免的缺陷,但在創意寫作中,這種特性反而不可或缺。一些人也在利用這種特性,向其尋求靈感、新情節和解決方案等。
晚點:跟 AI 合作寫書有什么特別的?
謝諾夫斯基:我 2018 年出版的《深度學習》耗時兩年,但《大語言模型》只花了一年。這得益于我用 ChatGPT 輔助寫作。我在書中標注了問題框和答案框,確保讀者清晰看到:這是我的提問,這是 ChatGPT 的答案。
另一項令人欣喜的嘗試是,ChatGPT 在總結、簡化、通俗易懂呈現方面表現卓越,幫了我大忙。比如我需要向非科學家或者工程師的群體解釋一些專業概念(如 Transformer 模型);每章結尾的總結,ChatGPT 比我寫得更恰到好處。
麻省理工學院出版社將我的書稿送審后,其中一位審稿人說自己非常喜歡章末的總結,覺得比正文更容易理解。這恰恰說明了問題。
![]()
《深度學習》(The Deep Learning Revolution)和《大語言模型》(ChatGPT and the Future of AI)的中文版。
晚點:為什么你覺得用戶和大語言模型的互動是 “鏡像效應”?
謝諾夫斯基:《經濟學人》刊登過一篇文章,兩位杰出的認知科學家分別使用 ChatGPT,一位認為它糟糕透頂,隨機生成垃圾,根本不懂自己在說什么;另一位覺得它可能具有 “心智”。當你與它對話時,它會構建你的模型,預判你的思維方式,回復相應的答案。
訓練 ChatGPT 的知識庫幾乎涵蓋整個世界,包括過去數百年的文獻和著作等。它能模仿任何作者的風格,扮演任何角色。所以當你開始對話時,它首先得判斷:我對話的對象究竟是誰?這個人是否聰明?如果對方問題睿智,那我會對應睿智回答。因為我要模仿對方,努力提供與對方對話層次相匹配的答案。
但如果對方的問題荒謬,那它也會給出愚蠢回答。關鍵在于,若你事先不向 ChatGPT 明確告知你期望的回答方式,系統只會按默認的鏡像模式回應。
晚點:你還認為 AI 在對人做圖靈測試。(注:現代計算機先驅艾倫·圖靈設置了一組問題來判斷對話對象是機器還是人類。如果交談后,你認為對方是人類,那它就通過了測試。 )
謝諾夫斯基:ChatGPT 早已通過圖靈測試,它用英語表達時,句法結構完美無缺。語言學家告訴我們,句法(詞語的組織方式與排列順序)是語言的核心力量,意義是語言的最高層次,正是它讓我們與動物區別開來。許多動物能通過警告信號等與同類交流,但人類能創造出復雜的詞語組合,具有近乎無限的可能性。
ChatGPT 的語法能力遠勝于我。我常犯語法錯誤,我們也都難免出錯,它卻從不失誤。某種程度上,它比我們更聰明,沒有人擁有如此廣博的知識體系。它還精通多種語言,能處理各種復雜任務。
我意識到,某種意義上,它通過 “鏡像效應” 測試提問者的水平。這相當于逆向的圖靈測試,AI 在評判人類的智慧。
從機器人到類神經元芯片,AI 研究繼續從人體尋找靈感
晚點:你在書里提到,AI 的記憶能力現在處于初級階段,未來要想進步,可能取決于神經科學家對海馬體和神經調節劑的進一步研究。能否為讀者通俗解釋 AI 和大腦在 “記憶” 問題的異同?
謝諾夫斯基:讓我問你一個問題:明天你還會記得這次與我的訪談嗎?
晚點:當然,會記得。
謝諾夫斯基:希望如此(笑)。一些人的海馬體會出問題,導致他們記不起昨天,甚至 5 分鐘前發生的事。這叫健忘癥。事實證明,大語言模型也有健忘癥。除非它們把對話內容存儲在某種記憶系統,否則它們不會記得昨天和你聊過什么,也就無法利用昨天從你這里學到的東西。這叫長期記憶。相比之下,人類大腦在長期記憶上表現卓越。你仍能記起 10 年前的往事或童年點點滴滴。雖然記憶可能變淡,但那些形象始終縈繞在你的腦海。
大語言模型僅僅模擬了大腦皮層的極小部分。皮層之外,大腦還存在數百個其他腦區。這些龐大的知識庫用于處理更復雜的問題,比如生存之道。因為生存的關鍵之一就是銘記過往經驗,從而從中獲益。這就是進化來的長期記憶。
正如你所說,大語言模型現在處于早期階段,類似萊特兄弟的首次飛行。當時,萊特兄弟的飛機只在空中停留 12 秒、飛行距離約 36.5 米,但他們證明了載人飛行原理的可行性。早期飛機面臨的最大挑戰是如何精準操控飛行軌跡并避免墜毀。
這正是 “監管” 的本質:如何規范機器運行。在大語言模型領域,我們面臨同樣困境。解決問題需要時間。在飛機領域, 100 年后的今天,我們能乘坐它們環游世界。技術需要如此漫長的漸進式發展,才能達到高效且安全的境地。
晚點:現在神經科學處于什么階段,對 AI 的進步可能有什么幫助?
謝諾夫斯基:我的博士學位是物理學,但后來我轉向了神經科學。因為上個世紀我對大腦的工作原理充滿好奇。當時的技術非常原始,每次只能記錄單個神經元的活動。而我們的大腦擁有 1000 億個神經元,數量極其龐大。如果逐個記錄、逐項分析,不知要耗費多少時間。
過去 10 到 20 年間,技術突飛猛進。如今我們能同時監測數萬個神經元,覆蓋大腦數十個區域。現在我們能觀察大腦整體活動模式,獲得全局圖景。
現在仍有大量未知領域亟待探索,我們遠未真正理解大腦運作機制。不過在感知輸入的表征機制方面,我們的認知顯著提升。如今我們對運動系統的組織方式有了更清晰的認識——它是分布式的,它不像工程師設計火箭控制系統那樣,由單一控制單元統管全局。
大腦是將實際控制權分散到多個區域,包括脊髓等。脊髓能與外界進行大量局部交互,比如手部動作無需大腦參與,可在局部完成。但當需要規劃動作時,大腦會調動皮層,制定方案,再通過中間層整合出精確的手部運動軌跡。所有這些過程都在無意識中完成。
類似的,AI 的崛起也不是因為上世紀那種符號邏輯規則的框架,而是借鑒大腦結構——大量簡單處理單元,但又高度互聯的模型。我們創建了龐大的語言模型,也在深入探究其運作機制,解析其數學原理。它們雖如大腦般神秘,但我們終將破解其奧秘,畢竟是我們創造了這些模型。數學家理應能揭示其運作規律。
隨著研究推進,我們將能借鑒對大語言模型的研究,來設計更有效的實驗方案,揭示大腦運作規律。這就是 “神經 AI” 這一新興領域的魅力所在。它匯聚了關注大腦運作的科學家與致力于構建更強大語言模型的工程師,實現了跨學科融合。
而在上個世紀末,兩個學科毫無共同點,各自運用截然不同的數學方法解決完全不同的問題,進展緩慢。如今兩個學科都取得飛躍性進展,發展速度極快。這無疑是令人振奮的時刻。
![]()
大腦研究中的層級。(左)空間尺度范圍從底部的分子水平到頂部的整個中樞神經系統(CNS)。突觸的示意圖(右下),視覺皮層中的簡單細胞結構(右中),視覺皮層中皮層區域的層次結構(右上)。圖片來自:《深度學習》
晚點:你提到,神經科學家開發的神經形態芯片(超大規模集成電路,VLSI)能耗遠低于傳統數字芯片,但同樣可以執行神經元的基本運算,因此在降低功耗的同時有高性能計算的潛力。為什么這些芯片還沒有得到充分使用?如果神經形態芯片能夠廣泛使用,是否意味著今天算力投資存在大量浪費,英偉達這類公司的價值被高估,能源也不再是 AI 發展的限制?
謝諾夫斯基:神經形態工程由加州理工學院的工程師卡弗·米德(Carver Mead)創立。他原本是位物理學家,研究晶體管的原理。但他提出一個極具洞見的觀點:數字芯片存在根本缺陷。數字芯片的工作原理與早期 AI 如出一轍,即非開即關、非通即斷的二進制邏輯,本質上是真或假的二元判斷。
因為計算機要實現精確運算,不容許任何失誤,方法是向芯片注入巨大能量。晶體管每次進行開關,電壓都在高低電平軌之間切換,這極其耗能。而每個芯片密布著大量晶體管,加在一起能產生數百瓦功率,足以點亮甚至溫暖整個房間。
米德意識到,不必讓晶體管全程滿載,只需在臨界點附近工作。當輸入信號時,它就能沿著陡峭的曲線上升。有趣的是,這條曲線的數學模型竟與神經元對刺激的反應機制完全一致。這種特性被稱為模擬信號,其連續數值與數字信號的二進制形成鮮明對比。
由此誕生的神經形態芯片能完美復現神經元功能,功耗降低了千倍,僅需毫伏級微弱電流。它們的重量極輕,還能相互通信,無需現在整間房子的 GPU 機架。當前,數據中心正投入數百億美元在芯片和電力上。而人腦因為采用模擬處理,僅需 20 瓦功耗。
如今我們已掌握制造神經形態芯片的技術,運作方式比當前使用的數字芯片更接近神經元。這項技術已發展約 30 年,屬于成熟技術。當前阻礙在于,從數字信號向模擬信號的轉換需要龐大基礎設施支撐。這類似于燃油車向電動車的轉型。在芯片上,我們必須經歷從數字邏輯到模擬計算的轉型。這需要徹底改變設備的設計方式,需要完全不同的技能體系。未來幾十年間,我認為技術重心向模擬領域轉移的變革必將發生。
晚點:你太太是醫生,你說她經常提醒你,“大腦只是身體的一部分,而身體比大腦更復雜”。現在的 AI 只是模擬了大腦皮層很小一部分原理,但沒有涉及小腦,也就是人體控制運動的部分。這是否意味著,人類對小腦的認知比皮層少,機器人的發展還很遙遠?
謝諾夫斯基:是的,大語言模型只會說話,沒有身體,做不到言行一致。
如何控制機器人是個極其困難的問題。這涉及身體多處部位同步協調,才能實現流暢動作、抓取物品、保持平衡等功能。最近,加州理工學院控制理論專家約翰·多伊爾(John Doyle)和他才華橫溢的學生們在該問題上取得突破性進展。他們采用分布式控制,這也是前面提過的,大腦運用的控制方式。
另一關鍵在于,人體擁有極其精密的感知器與執行器。人類沒有旋轉的電機,依靠的是肌肉收縮配合精密反饋機制,抓取和操控物體。這對機器人非常困難,它們現在連簡單動作都難以完成。
大腦皮層外有數百個區域關乎生存,其中移動能力就是生存必需。人類的身體經過數百萬年進化,早已被精確調校到能快速靈活地應對突發狀況。我們遠沒達到那種水平,要真正接近自然的智慧,仍要漫長歲月。
晚點:身體可能比語言更復雜。
謝諾夫斯基:正是如此。哺乳動物耗費數億年才發展出身體能力,而人類語言的歷史只有數十萬年。
語言要利用現有神經系統才能發展。這些系統原本是為生存進化而來。所以語言必須融入現有的神經回路,使用相同的方法、相同的世界表征方式、相同的運動系統,才能實現說話等功能。
這意味著,某種程度上,語言的復雜性更低。它并未在腦中創造全新區域,大腦也不存在所謂的語言器官。
自然界已經解決過無數復雜問題,像剛才我提到大腦的能耗只有數字芯片的千分之一。但換個角度,大腦只占人類體重約 2%,但消耗了全身能量的 20%。
下一步發展需要基礎數學的突破
晚點:你寫道:“如果技術足夠成熟,我們甚至可以利用個人的腦活動數據來訓練高級神經基礎模型,從而創造出一個能夠模擬該個體思維方式的永久性數字版本。” 從科學原理角度,人腦的下載是有可能的,那離真正實現大概還有多遠?我還想起相關的一則新聞,中國哲學家李澤厚死后選擇冷凍自己的大腦。因為他希望未來可以研究他的大腦是否具有中國文化的印跡。你覺得文化會影響大腦嗎?
謝諾夫斯基:毫無疑問,文化會影響大腦。事實上,你經歷的每件事都會改變大腦。大腦與計算機的根本區別在于:當你學習新事物時,計算機只是改變硬件配置,而大腦則會改變軟件,改變大腦中的程序。大腦中的軟件就是硬件。
文化如同軟件,源于世界本身。你必須學習當地社區使用的語言,領悟他們的價值觀、善惡標準、危險界限……所有這些都需通過經驗習得,并在學習新事物時改變大腦的硬件結構。這部分還相對簡單,現在理解大腦不同部位如何運作以及如何復制這種運作,才是科學難題。
目前,下載大腦(把某人的大腦植入計算機)的想法還屬于科幻范疇。然而人類許多行為模式可以被復制。因為相較于大腦中錯綜復雜的神經回路,人類實際使用的行為模式相當有限,比如人學會走路后,后來都會自動行走。
這套程序非常精密。因為行走需要大腦多個區域協同運作,但是一旦掌握,便成自動反應。無需刻意思考,你只需走而已。人類 99% 的行為都是習慣使然,重復既往模式并延續相同方式。
我們渴望理解這些習性背后的機制,這也是可以解決的科學課題。物理學中的動力系統理論提供了研究路徑,其核心在于同步采集神經元活動數據與行為表現,并建立因果關聯,即簡單地證明某個神經元引發特定行為。
沖繩科技大學的杰拉爾德·帕奧提出了一個精妙的數學框架,成功解決了該難題。我們正與他合作,將研究從果蠅和斑馬魚幼苗轉向人類。
具體來說,我們在運用他的算法分析人類神經影像數據,驗證能否復現人類行為模式。人類神經影像數據依靠的是功能性磁共振成像技術。該技術能在相對較低的分辨率下同步記錄大腦多個區域的活動,最高可達單個神經元級別。在皮層區域分辨率下,我們可觀察個體活動時,哪些腦區被激活。
我們所有工作都在計算機中完成,采集數據、分析行為模式,再在計算機中復現行為。某種意義上,這是將大腦功能下載至計算機,使計算機執行類似行為。
![]()
學術研究之外,謝諾夫斯基做了許多腦科學的科普工作。他在網課平臺 Coursera 有《學會如何學習》(Learning How to Learn)等課程,并合著有相關科普書籍。
晚點:因為大腦有 1000 億維,你覺得 AI 的發展需要基礎數學在高維空間的進步,這個挑戰有多大?
謝諾夫斯基:數學是人類成就皇冠上的明珠。所有科學都依賴于數學。沒有數學,一切皆不可能。它是科學的語言。
人類的大腦擅長在三維空間中思考,但對六維空間的幾何形態毫無概念。六維不是四維的簡單擴展。它雖非巨大飛躍,卻已超出人類想象力的邊界。但我們能發展出高維數學,研究六維空間中結構的特性,比如一個包含六個單元的神經網絡。
研究發現,當空間維度不斷擴展時,會形成極其復雜的結構區域。這些區域能以我們無法想象的方式存儲和分析信息,但我們能通過數學手段解析它們。這就是當下正在發生的事,我們通過分析大腦數據創造新的數學洞見。
人們常說 ChatGPT 這類神經網絡是黑箱。黑箱是無法窺見內部運作的裝置,不透明,你不知道它如何運作。事實上,大腦也是黑箱,但比大語言模型透明——我們能夠獲取大腦每個神經元活動、每條連接的實時變化,掌握所有輸入數據的完整知識。正因如此,科學才能取得飛速進展。
數學家未來能指引我們探索高維空間究竟如何運作。它與我們的直覺截然不同,必將催生全新的數學體系。我們甚至無法想象它是什么樣的數學體系。如今,我們正處于三維與無限之間的某個維度。這是大腦運作的地方,也是我們獲得新見解的領域。
政府缺乏專業知識管控 AI 風險,科學家能夠自我監管
晚點:你在《大語言模型》的后記里說:“我撰寫本書,是為向讀者揭示 AI 領域幕后的發展脈絡。當下,媒體忙于報道 AI 的最新進展,但如果不了解這些突破背后的歷程,讀者很容易產生誤解。” 那能否講下你觀察到的一些誤解?
謝諾夫斯基:媒體雖然不是出于惡意,但往往夸大其詞、誤導讀者。因為媒體本質上是個吸引眼球的行業,需要讀者點擊或者購買。報紙就是上個時代的 TikTok,專為讓人上癮而生。媒體由于想把文章包裝成你感興趣的模樣,于是內容聽起來特別糟糕,比如標題可能寫成《AI 將讓你失業》。它們會報道某些失業案例,但這絕非當前使用 AI 的真實處境。
實際上,絕大多數使用者工作效率更高、工作表現更優、鉆研問題更深入。每當我演講時,人們最常問的問題就是:“我會失業嗎?” 這是一種全民焦慮。為什么會這樣?我覺得是因為媒體不斷灌輸 “你將失業” 的論調。對此我的回應是:“你不會失業,但工作性質將改變。新技術需要新技能,你必須學會如何運用。”
另一個例子是超級智能。有文章宣稱,AI 將消滅人類。媒體將其炒作成頭條新聞,稱之為 “生存威脅”。雖然在 AI 發展過程中,我們必須保持警惕,避免做出無法逆轉的錯誤決策。但當前技術已給人類帶來巨大福祉,我們需要權衡利弊。而且,所有技術都可能被用于惡意目的,我們建立監管機制防范就好。即使生存威脅終有一天發生,也絕非近在眼前。
![]()
1980 年,謝諾夫斯基(左)和辛頓(右)在波士頓討論視覺網絡模型。一年后,謝諾夫斯基在巴爾的摩的約翰·霍普金斯大學成立了實驗室,辛頓在匹茲堡的卡內基梅隆大學創立研究小組。兩地相距數百英里,每逢周末,他們開車往返見面,最終共同取得重大突破。圖片來自:《深度學習》
晚點:那你覺得怎樣的監管機制比較好?你在書中提到了自我監管、政府監管、國際監管三種方式。
謝諾夫斯基:我認為自我監管是起點。專家群體審視現有成果,試圖加以約束或管控,而不是由政府或國際機構制定可能阻礙技術進步或脫離實際的規則。
真正重要的是當前無人能預見的意外后果。我們必須允許探索的可能性,若過早扼殺創新,最終所有人都會蒙受損失。
1970 年代重組 DNA 技術誕生后的自我監管是可以借鑒的模式。重組 DNA 意味著人們能從基因組中切除或添加基因,生物學家立馬意識到這如同神力,人類可能徹底搞砸一切。倘若創造出滅絕人類的病毒呢?
科學家們沒有被動等待監管機構介入,而是選擇主動自我約束。他們召開國際會議,制定生物安全等級制度,規定在基因可能外泄的危險實驗中,必須采取相應防護措施等。過去半個世紀,這些規范始終得到嚴格遵守,成效顯著。雖然發生過泄漏事件,但均得到有效控制。我們必須延續這種模式,在技術演進過程中建立自我監管機制,掌握控制方法。
政府干預過于粗暴,他們缺乏專業知識來有效管控。科學家群體完全有能力自我監管,當前也有相關努力正在推進。許多研究者不僅關注安全,還涉及隱私等倫理問題。我們需要厘清AI 的風險與收益,認清為獲取 AI 的效益必須承擔哪些風險和代價。
小模型可以替代大模型,小公司可能戰勝大公司
晚點:你怎么看大模型和小模型的爭論?大語言模型的發展證明了規模化法則(Scaling Law),但現在一些人覺得追求更大規模的語言模型意義不大,應該專注更小、更專業的模型,這樣更有利于商業化。從科研角度,你也提到:“小型語言模型因其訓練數據需求量小,更便于開展快速實驗并識別關鍵機制,這可能是通向理論突破的重要途徑。”
謝諾夫斯基:當前我們需要的模型越大,所需數據就越多,而我們已經耗盡數據。若有更多數據,我們或許能構建更大的模型。但關鍵在于,當前技術已極具實用價值。在許多商業應用場景或特定領域,小模型可以替代大模型。
比如修理自行車的師傅精通零件細節,清楚故障成因,懂得如何更換部件……他們擁有深厚的知識儲備,但專注的領域極其狹窄。這時濃縮自行車知識的小模型就比通曉世間萬物的大模型更好,更能滿足你對自行車的需求。
許多企業都將需要基于自身數據的專用小型語言模型。雖然企業數據量遠不及全球數據龐大,但這些數據恰恰需要保密,必須將數據嚴格封鎖在企業內部。這場變革當下正在發生。
另一關鍵點在于數據質量至關重要。若直接抓取互聯網數據,必然充斥著各種錯誤、偏見……由于數據量龐大,人類無法篩選處理。但若采用小型語言模型,就有能力篩選全部數據。所以未來將出現偏見更少、誤判概率更低的小型語言模型。當前的困難在于 AI 專家的數量有限。
這可能需要數十年時間培養大批人才。他們不是創造新 AI 的人,而是懂得如何運用 AI、將數據輸入 AI 的人。如果說研發大模型是在設計新的汽車,這些人的工作有點像汽車修理工。
晚點:今年 DeepSeek 引起熱議,被看作是開源的勝利和中國公司的崛起,你對此有什么感受?
謝諾夫斯基:這是一種令人印象深刻、富有創意地改進大語言模型的深度學習方法。DeepSeek 沒有來自阿里巴巴、騰訊,而是源自一個小型團隊。他們必須精打細算地利用有限資源,通過架構優化提升效率。他們向我們證明,即便資源遠不及巨頭企業,依然能取得重大突破。
這就是初創企業的故事,困境催生創新。當資源受限時,人們會迫使自己探索更聰明的解決方案。這種現象不僅在中國,在全球眾多小公司里都在發生。
現在全球有 10 萬家 AI 初創企業,數量驚人!它們正朝著無數方向發展,令人振奮。AI 初創企業的人員都非常年輕,他們正積極推動變革。變革機遇對中國實現趕超也至關重要。
晚點:你覺得 AI 領域會有小公司超越 OpenAI、微軟、Google、Facebook 等大公司嗎?
謝諾夫斯基:完全有可能。我們正經歷全新時代,人類正重演 1990 年代互聯網革命的軌跡。Google 最初只是家小公司,斯坦福大學兩名計算機科學研究生構思出了搜索引擎理念。我們正經歷的 AI 時代,未來影響力或許會超越互聯網。
晚點:我讀完《深度學習》和《大語言模型》兩本書后,最大感受是你和辛頓等一小群反叛學者,堅持挑戰 AI 建制派的不易。回看半個世紀 AI 發展的歷史,你最大的感受是什么?
謝諾夫斯基:物理學家普朗克(Max Planck)是量子力學的先驅之一。他曾說過令我震驚的一句話。他說,科學的發展需要一場又一場葬禮的推進。
創造未來的人,那些擁有全新見解的人,通常都是年輕人。年輕人懷揣雄心壯志,致力于解決難題,但常被資深人士壓制。那些功勛卓著、事業有成的前輩們,不愿變革,只想穩坐高位。
當你年輕有為、試圖嶄露頭角時,頭頂上總有人在打壓你。這正是我和杰夫(杰弗里·辛頓的昵稱)努力推進工作時的切身體會。他們公然嘲笑我們,認為我們的工作荒謬無用。誰會相信神經網絡能成就什么?不過是玩具罷了,毫無價值!
一代又一代人都是這般對待新事物。但毫無疑問,又一代人即將崛起。我為我的學生感到驕傲,因為他們正在挑戰我們。他們已開辟出我們初入此領域時甚至無法想象的新方向。這正是世界的運行法則,永遠如此。
晚點:年輕人總渴望變革。
謝諾夫斯基:革命!革命!一切都是為了人民,讓我們推翻舊體制!這不僅限于科學領域,每個社會的組成部分都將經歷這樣的革新進程。
題圖視覺中國





京公網安備 11011402013531號