亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

Ilya罕見發聲:大模型“大力出奇跡”到頭了

IP屬地 中國·北京 編輯:趙靜 量子位 時間:2025-11-26 12:11:22

AI正從「規模時代」,重新走向「科研時代」。

這是Ilya大神在最新采訪中發表的觀點。

這一次,Ilya一頓輸出近2萬字,信息量爆炸,幾乎把當下最熱門的AI話題都聊了個遍:

AI為什么總在泛化上輸給人類?如何保證安全與對齊?預訓練范式有什么問題?

Ilya認為,目前主流的「預訓練 + Scaling」路線已經明顯遇到瓶頸。與其盲目上大規模,不如把注意力放回到「研究范式本身」的重構上。

不少網友也認同這個判斷。

然而,對于已經喊了好幾年「LLM已死」的LeCun來說,這一幕未免有些令人無語。

甚至在X上轉發梗圖,大概意思是:

咋我說的時候沒人當回事兒呢?

以下附上訪談全文,在不改變原意的前提下,對語言做了適當潤色。

訪談全文

Ilya Sutskever

你知道最瘋狂的是什么嗎?是這一切都是真的。

Dwarkesh Patel

你指的是什么?

Ilya Sutskever

你不這么覺得嗎?所有這些AI的事兒,整個灣區現在發生的一切——這不就像科幻小說里的情節變成現實了嗎?

Dwarkesh Patel

另一個瘋狂的點在于,「慢起飛」在體感上有多正常。按理說,人類拿出1%的GDP投到AI上,這聽起來本該是件驚天動地的大事,但現在真實感受上就是……還好。

Ilya Sutskever

事實證明,我們適應新東西的速度其實挺快的。而且現在這一切還是有點抽象。那意味著什么呢?

就只是你在新聞里看到:某家公司宣布又投了多少多少美元。你能感受到的就到此為止了,暫時不會以別的方式真正「砸到你身上」。

Dwarkesh Patel

要不我們就從這兒開始聊?我覺得這個話題挺有意思。

我覺得你剛才那個觀點——從普通人的視角看,就算到了奇點,生活也「沒那么不一樣」——大概率會一直成立。

Ilya Sutskever

不,我不這么覺得。我剛才說「感覺不出太大區別」,指的是那種:「好吧,某家公司又宣布了一個巨大得難以想象的投資數字。」這種東西大家其實無從感受,它只是個數字,普通人不知道該怎么處理這種信息。

但我認為AI的影響是會被真正「感受到」的。AI會滲透進整個經濟體系里,會有非常強的經濟動力去推動這一點,我覺得它帶來的沖擊會非常明顯。

Dwarkesh Patel

你覺得這種沖擊會在什么時候到來?現在的情況就是:模型看起來比它們在經濟上體現出的影響「聰明得多」。

Ilya Sutskever

對,這正是當下這些模型最讓人困惑的地方之一。你如何去調和這樣一個事實:一方面它們在各種評測上表現得非常好——你看看這些評測就會說,「這些題挺難的啊」,模型卻做得很好;

另一方面,經濟上的實際影響卻明顯落后很多。很難理解:一個模型怎么可能在某些方面做出這么驚人的事情,同時在另一些場景里又會干出像「連犯兩次同樣的錯誤」這種事?

舉個例子:假設你用所謂的vibecoding干點事情,跑去某個地方寫了段代碼,然后遇到一個bug。你跟模型說:「幫我修一下這個bug。」模型說:「天哪你說得太對了,是有個bug,我這就給你修。」

然后它給你引入了第二個bug。接著你又說:「你現在多了一個新的bug。」它又說:「天哪我怎么會這么干,你又說對了。」然后把第一個bug再次引回來。你們倆就這樣反復在這兩個bug之間來回切換。

怎么會這樣?我也不確定。但這確實暗示著這里面有點奇怪的東西。

我有兩種可能的解釋。比較「異想天開」的那個解釋是:也許RL訓練讓模型變得過于單一目標、過于「直線型」,在某些方面反而缺乏覺察力——盡管在其他方面它又更有覺察力。正因為這種過度單向專注,反而會讓它在一些很基礎的事情上做不好。

但還有另一種解釋:在大家還只做預訓練的時候,「該用什么數據」這個問題其實已經被回答了——答案就是「全部的數據」。做預訓練你就是要所有數據,用得越多越好,所以你不必去糾結「要這一份數據還是那一份數據」。

可當人們開始做RL訓練時,就不得不思考這個問題了。

大家會說:「我們想要針對這個能力做這樣一種RL訓練,針對另一個能力做那樣一種RL訓練。」據我所知,各家公司都有專門的團隊不停地產出新的RL環境,然后把它們加進訓練混合里。

問題是:這些環境到底是什么?這里有巨大的自由度——你可以設計出千奇百怪的RL環境。

其中一種做法,我覺得在現實中是「無意間發生」的,就是:大家會從eval中汲取靈感。「我希望我們家模型上線時,評測成績好看。那我們應該設計什么樣的RL訓練,才能讓它在這項任務上的表現變好?」

我認為這種事情確實在發生,它可以解釋目前很多現象。

如果你再把這點和「模型的泛化實際上還不夠好」結合起來,就很有可能解釋我們看到的大部分情況:也就是——為什么評測表現與真實世界表現之間有這么大的落差。而這個「落差到底是什么意思」,其實是我們到今天都還沒想清楚的。

Dwarkesh Patel

我很喜歡這個說法:真正的「獎勵黑客」不是模型,而是那些過度關注eval的人類研究者。

你剛才提到的這個問題,我覺得可以從兩種角度去理解。

一種角度是:如果事實證明,「在編程競賽上達到超人水平」并不會自動讓一個模型在實際代碼庫中更有品味、更會做判斷,那答案也許就是:你應該擴展環境的集合,不要只測試它在競賽題里能不能拿最高分,還應該測試:它能不能為X場景做出最好的應用?能不能為Y場景、Z場景寫出真正好用的東西?

另一種角度是:「為什么一開始我們要假設:在編程競賽上變成超人,就一定能在更廣泛的意義上變成一個更有品味的程序員?」

也就是說,或許正確的策略不是不停往上疊不同的環境,而是想出一種方法:能讓模型從一個環境中學習到的東西遷移到另一個任務里,從而真正提升「廣義能力」。

Ilya Sutskever

我有個類比,也許對理解這個問題有幫助。既然你剛才提到競賽編程,那我們就拿它來舉例。

假設現在有兩個學生。學生A決定要成為最強的競賽程序員,于是花了一萬小時專門練這一個領域。他把所有題都刷了,背熟了所有證明技巧,非常擅長快速、正確地實現各種算法,最后果然成了頂尖選手。

學生B的想法是:「競賽編程挺有意思的。」他也練了,但只練了大概100小時,遠遠少于前者,但成績依然不錯。

你覺得這兩個人中,誰未來職業發展會更好?

Dwarkesh Patel

是第二個。

Ilya Sutskever

對。我覺得現在模型的狀況,基本就像學生A——甚至更極端。

因為我們會說:「好,我們要讓模型在競賽編程上表現出色,那就把所有競賽題都喂進去。」然后還要做數據增強,造出更多變體題,再用這些海量的競賽題來訓練。結果就是,你得到了一名非常優秀的「競賽程序員型模型」。

在這個類比下,很多事就更直觀了。

當你在這個細分領域訓練得這么極致所有算法、所有證明技巧都隨手可得,你就更容易理解:為什么這樣的訓練未必能很好地泛化到其他任務上。

Dwarkesh Patel

那在人類世界里,第二個學生在那100小時「微調訓練」之前,究竟在做什么,類比到模型上又是什么?

Ilya Sutskever

我覺得那就是所謂的「it」——那個「那股勁兒」。我本科的時候就認識過這樣的人,所以我知道這種存在是現實的。

Dwarkesh Patel

我覺得有趣的一點在于,要區分這個「it」和「預訓練到底做了什么」。

理解你剛才關于預訓練數據選擇的一個方式是:其實它跟「一萬小時練習」并沒有那么不同,只是你可以把那一萬小時「免費打包」到預訓練里,因為這些內容本身就存在于預訓練的數據分布中。

但也許你在暗示的是:預訓練其實并沒有帶來我們想象中的那么多泛化,它只是依賴了海量的數據量,但這種泛化未必比RL更強。

Ilya Sutskever

預訓練最大的優勢在于兩點:第一,數據量極其龐大;第二,你不用特別糾結「選哪些數據」,因為要做的就是——全要。

這些數據非常「自然」,里面包含了各種各樣人類的活動:人們的想法、經驗,以及大量關于世界的特征。可以說,它是「人類把世界投射到文本上的那一層」。預訓練的目標就是:用巨量數據去捕捉這層投射。

預訓練之所以難以被徹底理解,是因為我們很難弄清楚:模型究竟是以什么方式在利用這堆預訓練數據。

每當模型犯錯時,你都會想:「是不是因為碰巧某個東西,在預訓練數據里支持得不夠?」這里的「被預訓練數據支持」,其實是個很松散的說法,我也不太確定能不能把它解釋得更好。

我不認為人類世界里存在一個真正對應「預訓練」的類比。

情緒和價值

Dwarkesh Patel

以下是一些人們提出的關于人類「前期訓練」的類比。我很想聽聽你們的看法,為什么這些類比可能存在問題。

一種類比是思考一個人生命的前18年、15年或13年,這段時間他們未必具有經濟生產力,但他們所做的事情讓他們更好地理解世界等等。另一種類比是將進化想象成一場持續30億年的探索,最終形成了人類的一生。

我很好奇你是否認為這兩者類似于預先訓練。如果不是預先訓練,你會如何看待人類終身學習?

Ilya Sutskever

我認為這兩者與預訓練有一些相似之處,預訓練試圖同時扮演這兩者的角色。但我認為它們之間也存在一些很大的差異。預訓練數據的數量非常非常龐大。

Ilya Sutskever

不知何故,即使人類擁有預訓練數據的一小部分,經過15年的訓練,他們所掌握的知識仍然遠不及AI。但無論他們掌握了什么,他們的理解都更加深刻。到了那個年紀,你都不會犯AI會犯的錯誤。

還有一點。你可能會問,這會不會跟進化有關?答案是也許吧。但就這件事而言,我認為進化論可能更有優勢。我記得讀過相關的案例。神經科學家了解大腦的一種方法是研究大腦不同區域受損的人。有些人會出現你想象不到的奇怪癥狀。這真的很有意思。

我想到一個相關的案例。我讀到過一個人,他腦部受損,可能是中風或意外事故,導致他喪失了情感處理能力。所以他不再能感受到任何情緒。他仍然能言善辯,也能解一些簡單的謎題,考試成績也一切正常。

但他感覺不到任何情緒。他不會感到悲傷,不會感到憤怒,也不會感到興奮。不知何故,他變得極其不擅長做任何決定。他甚至要花幾個小時才能決定穿哪雙襪子。他在財務方面也會做出非常糟糕的決定。

這說明我們與生俱來的情感在使我們成為合格的行動主體方面扮演著怎樣的角色?說到你提到的預訓練,如果你能充分發揮預訓練的優勢,或許也能達到同樣的效果。但這似乎……嗯,預訓練是否真的能達到這種效果還很難說。

Dwarkesh Patel

「那」是什么?顯然不僅僅是情緒。它似乎是一種類似價值函數的東西,告訴你任何決定的最終回報應該是什么。你認為這不會在某種程度上隱含在預訓練中嗎?

Ilya Sutskever

我覺得有可能。我只是說這并非百分之百確定。

Dwarkesh Patel

但那是什么?你如何看待情緒?機器學習中情緒的類比是什么?

Ilya Sutskever

它應該是一種價值函數之類的東西。但我認為目前還沒有很合適的機器學習類比,因為價值函數在人們的實際行為中并沒有扮演非常重要的角色。

目前強化學習的訓練方法很簡單,人們是如何訓練這些智能體的呢?首先,你需要一個神經網絡,然后給它一個問題,并告訴模型「去解決這個問題」。模型可能需要成千上萬次的動作、思考或其他操作,最終生成一個解決方案。然后,這個解決方案會被評分。

然后,這個分數會被用來為你的軌跡中的每一個動作提供訓練信號。這意味著,如果你正在執行一個持續時間很長的任務——如果你正在訓練一個需要很長時間才能解決的任務——那么在你找到建議的解決方案之前,它根本不會進行任何學習。這就是強化學習的簡單實現方式。這就是o1和R1的實現方式。

價值函數表達的意思類似于:「我或許有時能告訴你你做得好還是不好。」價值函數的概念在某些領域比其他領域更有用。例如,當你下棋丟掉一個棋子時,我犯了錯。你不需要下完整盤棋就能知道我剛才的走法不好,因此之前的任何走法也都不好。

值函數允許你縮短等待時間,直到最后才做出決定。假設你正在進行某種數學運算或編程,并試圖探索某個特定的解決方案或方向。經過大約一千步的思考后,你得出結論,這個方向沒有希望。

在你得出這個結論的那一刻,你就可以提前一千步收到獎勵信號,也就是在你決定沿著這條路徑前進的時候。也就是說,在你真正想出解決方案之前很久,你就已經告訴自己:「下次遇到類似情況,我不應該再走這條路了。」

Dwarkesh Patel

這是DeepSeekR1論文中提到的——軌跡空間如此之大,以至于可能很難從中間軌跡和值之間學習映射關系。

此外,例如在編程中,你可能會有錯誤的想法,然后你會回頭修改,然后再修改一些東西。

Ilya Sutskever

這聽起來像是對深度學習缺乏信心。當然,它可能很難,但沒有什么深度學習做不到的。

我預期價值函數會很有用,而且我完全相信它們將來會被用到,即便現在還沒有。

我之前提到的那個情感中心受損的人,或許更確切地說,這表明人類的價值體系在某種程度上受到情感的調節,而這種調節方式是由進化預先設定的。也許這對于人們在社會上有效運作至關重要。

Dwarkesh Patel

這正是我要問你的問題。關于價值函數中的情感因素,確實有一點非常有趣,那就是它們既實用又相當容易理解,這一點令人印象深刻。

Ilya Sutskever

我同意,與我們所學習和討論的事物,以及我們所討論的AI相比,情感相對簡單。它們甚至可能簡單到可以用人類能夠理解的方式將其描繪出來。我覺得這樣做會很酷。

但就實用性而言,我認為存在一種復雜性與穩健性之間的權衡:復雜的東西可能非常有用,但簡單的東西在更廣泛的情況下也同樣有用。

我們可以這樣解讀我們所看到的現象:這些情感主要源自我們的哺乳動物祖先,然后在我們進化成原始人類的過程中略作調整。

我們確實擁有相當數量的社會情感,而哺乳動物可能缺乏這些情感。但這些情感并不十分復雜。

正因為它們并不復雜,所以在這個與我們過去生活的世界截然不同的世界中,它們才能如此有效地幫助我們。

實際上,它們也會犯錯。例如,我們的情緒……嗯,其實我也不知道。饑餓算是一種情緒嗎?這還有待商榷。但我認為,在這個食物豐富的世界里,我們憑直覺感受到的饑餓感并不能正確地引導我們。

我們在擴展什么?

Dwarkesh Patel

人們一直在討論數據擴展、參數擴展和計算擴展。那么,有沒有更通用的擴展思路?還存在其他擴展維度嗎?

Ilya Sutskever

我認為有一個可能正確的觀點。過去的機器學習基本依賴于人們不斷嘗試各種方法,看看能否得到有趣的結果——這是早期的模式。

后來,「規模化」這個洞察出現了。規模化法則、GPT-3……突然之間,所有人都意識到:我們應該去規模化。這其實是語言如何影響思維的例子。「規模化」只是一個詞,卻非常有力量,因為它直接告訴大家應該怎么做——「繼續擴大」。

于是問題來了:要擴大什么?預訓練,恰恰是最需要規模化的東西。它是一種非常清晰的「配方」。

預訓練最大的突破,在于它證明了這套配方是可行的:只要你把一定量的數據和算力灌進一個規模足夠大的神經網絡,就會得到好的結果。你也自然會相信:繼續放大,效果就會繼續提升。

這種方法的優勢是,公司愿意為它投入資源——因為這是「低風險投入」。相比之下,把資源投入研究要困難得多。研究意味著:「研究人員請繼續探索,爭取有所突破」,而不是「再拿點數據、再加點算力」。但預訓練幾乎能保證一定的收益,這種確定性非常誘人。

根據推特上某些討論,Gemini似乎找到了讓預訓練更有效的方法。但預訓練最終會遇到一個硬上限:數據有限。那之后怎么辦?要么尋找新的「強化預訓練」方式,要么探索強化學習,或其他完全不同的路徑。當算力巨大到一定程度,我們又會重新回到「科研時代」。

如果要劃時代:2012—2020是研究時代;2020—2025是規模化時代。

這幾年大家幾乎都在喊「繼續擴大!再擴大!」。但當規模已經這么大時,你真的會相信再擴大100倍就能徹底改變一切嗎?

會有變化,但我不認為僅靠更大規模就能帶來根本性的轉折。我們正重新回到研究時代,只不過這一次,我們手里多的是巨型計算機。

Dwarkesh Patel

你剛才說到一個概念——「配方」。那我們究竟在擴展什么?這個配方到底意味著什么?在預訓練里,數據、算力、參數量、損失函數之間并不存在一種像物理定律那樣明確的關系。那我們到底應該追求什么?新的配方應該怎么構思?

Ilya Sutskever

我們已經看到了規模化路徑的遷移:從預訓練轉向強化學習。

如今大家正在擴展的是強化學習。從外界討論看,近期RL消耗的計算量可能已經超過了預訓練,因為RL天生「燒算力」——它需要極長的迭代過程,而每次迭代的學習增益又很小。結果就是,它極其耗算力。

我甚至不愿意把它稱為「擴展」。我更愿意問的是:「你的做法是最有效率的嗎?你能不能找到更經濟的方式去利用算力?」這就回到之前提到的價值函數。如果人們真的掌握價值函數,也許資源利用效率能提高很多。

但當你提出一個全新的訓練方法時,又會產生另一個問題:「這到底是擴展,還是在浪費算力?」這兩者之間的界限正變得越來越模糊。從某種意義上說,我們正在回到從前那種科研模式:「試試這個,再試試那個……哦,那里有點意思。」我認為這種局面會再次出現。

Dwarkesh Patel

如果我們真的進入了新的研究時代,哪些部分是最值得重新審視的?你提到的價值函數現在被廣泛應用,大家也把LLM引入為評判者。但這似乎仍只是在現有流程末端做加法。是不是應該重新思考預訓練,而不僅僅是在其后疊更多步驟?

Ilya Sutskever

我認為關于價值函數的討論非常有意思。我想強調的是,價值函數確實能讓強化學習更高效,我相信這會帶來顯著的提升。但我同樣認為,只要給足時間和算力,任何價值函數能做到的事情,不用價值函數也能做到——只是速度會慢很多。

最根本的問題是:這些模型的泛化能力遠遠不如人類。這是顯而易見的,而且我認為它是最核心、最棘手的問題所在。

為什么人類比模型更擅長概括

Dwarkesh Patel

所以關鍵就在于泛化能力。這里其實包含兩個子問題。

第一個問題更偏向樣本效率:為什么這些模型需要比人類多得多的數據才能學會一項能力?

第二個問題是:即使不談數據量,為什么讓模型真正理解「我們想要它做什么」比讓人類理解同一件事要困難得多?

對人類來說,學習并不依賴明確的獎勵信號。比如,你現在可能正在指導一群研究人員,你和他們交流、展示代碼、解釋思考方式,他們就能從中學會如何進行研究;你并不需要為他們設立一個個可驗證的獎勵環節,比如:「這是課程下一部分」「這一輪訓練不太穩定」之類的人工流程。

這兩個問題或許是相關的,但我想分別討論:第二個更像「持續學習」,第一個更像「樣本效率」本身。

Ilya Sutskever

關于人類樣本效率,最可能的解釋之一就是進化。進化在視覺、聽覺、運動等核心能力上,為我們提供了少量但極其有用的「先驗」。

例如,人類的靈巧度遠超機器人。即便機器人在模擬環境中可以通過大量訓練變得靈巧,但要讓機器人在現實世界里像人一樣快速掌握一項新技能,幾乎不可能。你可能會說:「哦,對,移動能力是我們祖先在數百萬年里都極度依賴的能力,所以我們擁有某些不可思議的進化先驗。」

視覺也類似。YannLeCun曾說,孩子練十個小時就能學會開車。確實如此——但那是因為孩子的視覺系統極其強大。我記得自己五歲時,對汽車非常著迷。我可以肯定,五歲時我對汽車的視覺認知已經足夠支撐基本的駕駛操作了。但五歲孩子的信息攝取量其實非常有限,大部分時間都只在父母身邊。

這說明視覺能力可能深深植根于進化,而非后天學習。

但當我們談到語言、數學、編程時,它們出現得太晚了,不太可能是進化帶來的。

Dwarkesh Patel

但即使在這些「近期才出現的能力」上,人類似乎仍然比模型更強。模型雖然在語言、數學、編程上已經優于普通人類,但它們在學習能力上真的更好嗎?

Ilya Sutskever

是的,當然如此。語言、數學、編程——尤其是數學和編程——表明,人類擅長學習的能力,可能并不是因為復雜的進化先驗,而是某種更基礎、更普遍的能力。

設想某項能力,如果它對我們的祖先在數百萬甚至上億年里都十分重要,那么人類在這方面可靠而穩定的表現,很可能來自進化層面的先驗知識——某種隱秘編碼在我們神經系統里的東西。

但如果人類在一些「近期才被發明的能力」上——如數學、編程——依舊表現出極強的學習能力和穩健性,那這就更像是人類天生就擁有一種「通用的機器學習能力」。

換句話說:如果連不靠進化積累的領域,人類依然能快速學習,那真正的關鍵可能并不是先驗知識,而是人類學習機制本身的效率。

Dwarkesh Patel

那我們該如何理解這種「學習能力」?它似乎具有一些很特別的特征,比如:它需要的樣本量很少,更像無監督學習。青少年學開車,并不是通過預設獎勵體系學習,而是通過與環境的互動。

他們的樣本量很低,卻能快速掌握,而且學習過程也非常穩健。有沒有機器學習的類比?

Ilya Sutskever

你剛才提到青少年司機如何在沒有外部指導的情況下自我糾正、從經驗中學習。我認為答案在于他們擁有自己的價值體系。

人類有一種極其強大的普遍感知能力。無論價值體系是什么——除了少數被成癮行為破壞的例外——它在絕大多數情況下都是非常穩固的。

所以,對正在學車的青少年來說,他們一坐上駕駛座,立刻能感覺到自己駕駛得有多差、哪里不穩。他們立即擁有內在反饋,于是自然開始改進。再加上年輕人本身學習速度極快,十個小時之后,他們基本就能熟練駕駛了。

Dwarkesh Patel

我好奇的是,他們究竟是怎么做到的?為什么對我們來說這么自然,而對模型來說卻如此困難?我們需要怎樣重新構思模型訓練方式,才能逼近這種能力?

Ilya Sutskever

這是個非常好的問題,我對此也有很多想法。但是,很遺憾,我們現在處在一個并非所有機器學習理念都能公開討論的時代,而這正是那些無法輕易公開討論的想法之一。

我相信是有路徑可以做到的。我認為這是可以實現的。而且,人類的這種直覺,本身就暗示了這種方法的可行性。

當然,可能還存在另一個難點:人類神經元的計算能力,可能比我們以為的還要強很多。如果這是事實,而且對學習過程至關重要,那么我們要做的事情會更復雜。

但無論如何,我相信這確實指向某種機器學習的根本原理。只是出于某些原因,我無法進一步詳述。

ASI

Dwarkesh Patel

我很好奇。如果你認為我們已經重新進入「科研時代」,那么作為當初經歷過2012–2020那段時期的人,你覺得現在的科研氛圍會是什么樣的?

比如,即使在AlexNet之后,人們用于實驗的計算量仍持續增長,前沿系統的規模也不斷擴大。你認為如今的科研時代是否同樣需要龐大的計算資源?需要重新翻閱舊論文嗎?

你曾在谷歌、OpenAI、斯坦福大學工作,那里都屬于學術氛圍最濃的地方。你覺得未來的研究社區會呈現什么景象?

Ilya Sutskever

規模化時代的一個結果,是規模本身擠壓了創新空間。由于「擴大規模」被證明有效,所有人都去做同一件事,最后變成「公司數量遠遠超過創意數量」的局面。

硅谷有句老話:「創意不值錢,執行力才重要。」這話有道理。

但后來我在推特上看到一句反諷:「如果創意這么便宜,為什么沒人有創意?」我覺得這同樣準確。

如果你從「瓶頸」的角度看科研,會發現有好幾個瓶頸:一個是想法本身,另一個是把想法變成現實的能力,而后者往往依賴計算資源或工程能力。

比如,上世紀90年代許多研究者其實有不錯的想法,但受限于算力,他們只能做很小規模的演示,沒法說服任何人。因此當時真正的瓶頸是計算資源。

在規模化時代,算力暴漲,瓶頸就轉移了。當然,我們仍然需要一些計算資源,但并不意味著科研一定要用到極限的規模。

舉個例子:AlexNet只用了兩塊GPU。Transformer剛出現時的實驗規模,大多在8~64塊GPU范圍內。按今天的標準看,那甚至相當于幾塊GPU的規模ResNet也一樣。沒有哪篇論文靠龐大的集群才能完成。

你可以說,如果要構建一個「最強系統」,更多算力一定有幫助——尤其在大家都遵循同一范式的情況下,算力自然會成為差異化因素之一。但科研本身,其實不需要無限制的大規模計算。

Dwarkesh Patel

我問這些,是因為你當時就在現場。當Transformer剛提出時,它并沒有馬上爆紅。它成為入門工具,是因為后來在越來越大的算力上不斷被驗證,模型規模提升后效果也持續提升,大家才開始真正基于它進行實驗和擴展。

那假設SSI有50個不同方向的想法,在沒有其他頂尖實驗室那種巨大算力的情況下,你們怎么判斷哪個是可能的「下一次變革」,哪個想法太脆弱?

Ilya Sutskever

這里我可以稍微解釋一下。你提到了SSI——事實上,我們的研究算力比外界想象的要多。

原因很簡單:SSI雖然「只有」30億美元,但你要注意,對大多數大公司來說,它們巨額的算力預算主要用于推理。這些錢、貸款、GPU資源,都必須用于產品推理服務。

其次,如果你要打造面向市場的AI產品,就需要龐大的工程、銷售團隊,需要大量資源去做產品相關功能。真正能用于純研究的資源,扣掉這些之后,其實并沒有想象得那么高。

反過來看SSI,我們的資金絕大部分用于研究,因此可用于實驗的算力并不少。

更重要的是:如果你在做「與眾不同」的研究,真的需要極限規模來證明它嗎?我不這么認為。對于我們要驗證的方向,目前的算力完全足夠讓我們說服自己,也說服世界。

Dwarkesh Patel

公開估計顯示,比如OpenAI這樣的公司,僅在實驗上的年度開銷就有50–60億美元,還不算推理服務的成本。他們每年在研究實驗上的投入甚至比你們的總經費還高。

Ilya Sutskever

關鍵不在于「有多少算力」,而在于「如何使用算力」。

他們的系統規模巨大,模態更多,工作流更多,因此算力需求自然龐大且分散。你要做一個能推理、能多模態、能產品化的系統,需要在非常多的環節投入計算資源。

但這不代表研究一定需要那種規模。

Dwarkesh Patel

那SSI未來會如何盈利?

Ilya Sutskever

目前我們只專注于研究。商業化問題到時候自然會水到渠成,我認為會有很多可能的路徑。

Dwarkesh Patel

SSI的計劃仍然是直接研發超級智能嗎?

Ilya Sutskever

也許吧,這個方向確實有意義。避免卷入市場競爭是一件好事。但有兩個原因可能促使我們改變策略:

第一,實際時間表可能比預期更長;

第二,真正強大的AI造福世界的價值巨大,我認為這是非常重要的事。

Dwarkesh Patel

那為什么默認策略要「直接研發超級智能」?

OpenAI、Anthropic等公司強調要逐步增強能力、讓公眾慢慢適應。為什么直接沖向超級智能反而可能更好?

Ilya Sutskever

正反兩方面都有道理。

正方觀點是:參與市場競爭會迫使公司做出艱難權衡,可能偏離長期目標。完全專注于研發是極具優勢的。

反方觀點是:讓大眾真正看到強大的AI,本身就是一種價值。你無法通過一篇論文或一套理念來「解釋」AI的沖擊力——只有親眼看到它在做什么,人們才會真正理解。這就是為什么大規模部署AI會帶來巨大社會收益。

Dwarkesh Patel

我同意,不僅是理念,更是讓人真正「接觸AI本身」。另一個原因在于:幾乎所有工程領域都依靠「現實世界中的部署」不斷提高安全性。

比如:飛機的事故率隨每一代機型不斷下降;Linux漏洞越來越難找到;系統越來越穩健。因為它們被全球范圍使用,問題被發現,然后被修補。

我不確定AGI或超級智能為什么應該是個例外。尤其是——超級智能的風險遠不止「回形針惡魔」那樣的故事。它太強大了,我們甚至不知道人們會如何使用它,更不知道它會如何與人類互動。

逐步普及似乎是讓社會做好準備的更安全方式。

Ilya Sutskever

我認為,即使采取「直接實施」的路線,也必然是一個循序漸進的過程。任何計劃都必須分階段推進,關鍵是你最先推出的是什么。

第二點,你比其他人更強調「持續學習」,我認為這非常重要。我想用一個例子來說明語言如何影響我們的思維。有兩個詞幾乎定義了整個行業的認知:一個是「AGI」,另一個是「預訓練」。

先說AGI。這個詞為什么會出現?它的目的并不是為了描述某種「最終形態」的智能,而是對「狹義AI」的一種反應。在AI的早期,大家談論的是「跳棋AI」、「國際象棋AI」、「游戲AI」。它們確實很強,但人們會說:它們太狹窄了,沒有通用能力。因此,「我們需要通用AI」這個概念逐漸流行起來。

第二個詞是「預訓練」。尤其在今天的強化學習工作流下,「預訓練」這個概念可能正在變得模糊。但它曾經非常重要:預訓練越充分,模型在各方面的能力都會提升。換句話說,預訓練促成了「通用AI」這一想法的流行。

問題在于,這兩個詞——AGI和預訓練——其實都帶來了某種誤導。如果你仔細思考,就會意識到:在人類身上不存在所謂的「通用AI」。人類確實在一些基本能力上很強,但真正的知識儲備極其有限,而我們真正依賴的是「持續學習」。

因此,當我們設想「創造出一種安全的超級智能」時,關鍵問題并不是它「已經掌握了多少技能」,而是:它在持續學習的曲線上處于哪個階段?

想象一個非常聰明、求知欲旺盛的15歲少年。他懂得不多,但學習能力極強,可以在不同領域持續擴展技能。如果你把這樣一個系統部署出去,它也會經歷學習和試錯的過程。這不是一個「成品」,而是一段學習旅程。

Dwarkesh Patel

明白了。你說的「超級智能」并不是一種已經掌握所有技能、能勝任所有工作的成熟系統,而更像是一個能夠學習完成所有工作的「可成長心智」。它和一些組織對AGI的定義不同,后者強調「能做任何人類可以做的工作」,而你強調的是「能夠學會任何工作」。

而只要有了這種學習能力,它就能像人類一樣,被部署到世界各地,從事不同工作,并在工作中不斷學習。

接下來可能有兩種情況——也可能都不會發生。

第一種是:這種學習算法強到不可思議,它在研究方面甚至能超過你,隨后不斷提升自身能力。

第二種是:即便沒有出現這種遞歸增強,只要你有一個統一的大模型,它的不同實例在全球范圍內執行不同任務,不斷學習,再把彼此的學習成果整合起來——那么你最終也得到了一種「功能性超級智能」。它幾乎能勝任經濟體系里的所有工作,而且不同于人類,它可以完美共享知識。

那么,你是否預期這種模型的廣泛部署會引發某種形式的「智能爆炸」?

Ilya Sutskever

我認為我們很有可能看到經濟的快速增長。關于廣泛部署的AI,業內有兩種相反的觀點。

一種認為:只要AI具備快速學習和執行任務的能力,而且數量足夠多,經濟體系就會強烈地推動它們被部署,除非監管阻止它發生——而監管很可能會出現。

另一種觀點認為,即便有監管,在足夠大的規模部署下,經濟都會在一段時間內進入高速增長。問題只是:增長能快到什么程度?這一點很難預測。世界足夠大,系統復雜,各行業的運行速度不同,但AI的勞動效率極高,因此經濟快速增長是完全可能的。

我們可能會看到不同國家因監管尺度不同而出現增長差異。哪些國家更早允許部署,哪些國家的經濟增長更快——很難提前判斷。

對齊

Dwarkesh Patel

在我看來,這是一個極其危險的局面。從理論上講,它完全可能發生:如果一個系統既具備接近人類的學習能力,又能以人類無法做到的方式「融合多個大腦實例」,那它的潛力就會遠超任何生命形式。人類可以學習,計算機能擴展,而這東西可以同時具備兩者。

這種智能的威力幾乎難以想象。經濟增長只是其中一種表現方式——如果它真的強大到能建造戴森球,那將帶來巨大的增長。而在更現實的層面,如果SSI雇傭這樣的智能體,它可能在短短六個月內達到凈生產力。人類學習已經夠快了,但它會進步得更快。

所以關鍵問題是:怎樣才能安全地讓它發生?SSI又憑什么認為自己有能力做到這一點?我真正想問的是,你們對這種局面的計劃是什么?

Ilya Sutskever

我的思維方式確實發生了一些變化,其中一個重要方面是,我現在更強調AI的逐步部署與提前規劃。AI的困難之一在于:我們討論的是尚不存在的系統,很難真正想象它會是什么樣子。

現實是,如今我們幾乎無法在日常實踐中真實“感受到”AGI 的存在。我們可以討論它,但想象它的力量,就像讓年輕人體會衰老的感覺一樣——可以嘗試,但最終發現根本無法真正理解。

圍繞 AGI 的很多爭議,本質上都來自一種想象力的缺失。未來的AI將與現在截然不同,強大得多。AI和 AGI 的核心問題究竟是什么?就是力量。根本問題就在于它的力量。

那么,當這種力量真正出現時會發生什么?過去一年里,我的想法有了變化——這種變化可能會影響我們公司的計劃。我的結論是:如果難以想象,那就必須把它展示出來。

我認為,絕大多數從事AI研究的人也難以想象未來系統的形態,因為它與我們熟悉的東西相距甚遠。我仍然堅持我的預測:隨著AI變得越來越強大,人類的行為會隨之改變。我們會看到許多前所未有的現象,而這些現象現在尚未發生。

第一,我認為未來無論好壞,前沿公司與政府都會在其中扮演極為重要的角色。我們已經看到一些跡象:原本的競爭對手開始在 AI 安全上合作,例如 OpenAI 和 Anthropic 的一些動作。這在過去是不可想象的。我在三年前的演講中就預測過這一幕。我相信,隨著AI力量變得更明顯,政府和公眾也將強烈要求采取行動。這是一種關鍵力量:向世界展示AI的真實面貌。

第二,隨著AI不斷提升,人們對它的理解也會發生轉變。目前許多從業者之所以覺得AI還不夠強,是因為模型仍會出錯。但我認為,某個時刻我們會真正“感受到”它的力量。

當這種感受出現時,所有 AI 公司的安全觀念都會發生巨大轉變,變得更為謹慎。這一點我非常確定。因為他們會親眼看到AI能力的躍升。而今天的討論之所以看不到這種謹慎,是因為人們只能看到當下的系統,而難以想象未來版本的樣子。

第三,從更宏觀的角度來看,有一個問題是:企業究竟該構建什么?

長期以來,業界都執迷于“能自我改進的 AI”。這背后的理由是想法比公司少——換句話說,讓 AI 自己想。但我認為,還有更重要、更值得構建的東西,而且未來每個人都會想要它。

那就是:以關懷有感知生命為核心的AI。

我認為,構建一個關心所有具備感知能力生命體的AI,比構建只關心“人類生命”的AI更容易。原因在于AI本身也將具備感知能力。

想想鏡像神經元,以及人類對動物的同理心——或許這種同理心不夠強烈,但它確實存在。我們之所以能理解他者,是因為我們用模擬自身的回路來模擬對方,這樣最有效。

Dwarkesh Patel

所以,即便你讓AI關心有感知能力的生物——實際上,如果你解決了陣營問題,我并不確定這是否是你應該努力的方向——大多數有感知能力的生物仍然是AI。

AI的數量將達到數萬億,最終甚至達到千萬億。人類在有感知能力的生物中所占的比例將非常小。因此,我不確定如果目標是讓人類控制未來的文明,這是否是最佳標準。

Ilya Sutskever

沒錯,這可能并不是最佳標準。我想強調三點。

第一,“關愛有感知能力的生命”依然非常重要,這一點應該被納入考量。

第二,如果能夠提前整理出一份包含多種可選方案、可供公司在關鍵時刻參考的建議清單,將會十分有價值。

第三,我認為,如果能以某種方式對最強大的超級智能體施加能力上的限制,會非常有益,因為這能解決許多潛在問題。

至于如何實現,目前我還沒有明確答案,但我相信,一旦討論的是“真正強大”的系統,這種限制的重要性將變得更加突出。

Dwarkesh Patel

在我們繼續討論對齊問題之前,我想先深入探討一下。

頂層還有多少空間?你如何看待超級智能?你認為,如果運用學習效率的概念,它是不是只是學習新技能或新知識的速度極快?或者它只是擁有更龐大的策略庫?是否存在一個位于中心、更強大或更龐大的單一「它」?

如果是這樣,你認為它相對于人類文明的其他部分會像神一樣嗎?還是僅僅感覺像是另一個主體,或者另一個主體群?

Ilya Sutskever

在這個領域,每個人的直覺都不同。我的直覺是:未來的 AI 將會極其強大。而且最有可能的情形不是某一個單體率先出現,而是多個同等級別的 AI 幾乎同時被創造出來。

如果計算集群大到相當于一個“大陸級規模”,那樣的系統就會真正意義上變得極其強大。我只能說,當我們談論的是真正強大的 AI 時,最好能限制它們的能力,或讓它們在某種協議下運行,否則風險顯而易見。

究竟是什么讓“超級智能”如此令人擔憂?問題的核心在于:即便你讓它做一件看似合理的事——例如全心全意關懷所有有感知生命——我們也可能并不會喜歡它最終采取的方式。這才是真正的癥結。

或許答案部分在于:你無法用通常意義上的方式構建強化學習智能體。幾點原因:

人類本身也是“半強化學習智能體”:我們追求獎勵,但情緒會讓我們厭倦并轉向新的獎勵。

市場是一種短視的智能體。

進化也是如此:在某些方面極其聰明,在另一些方面卻極其愚蠢。

政府被設計成三個部門持續制衡的結構,也會創造出復雜且難以預測的后果。

這些例子說明:我們熟悉的智能體類型,本身就帶有結構性的限制與偏差。

討論變得困難,還有另一個原因:我們談論的是尚未存在的系統,也不知道應當如何構建這樣的系統。

在我看來,當下所有研究都會持續推進、不斷改進,但永遠達不到“最終版本”。我們根本不知道該如何構建那種“最終版本的智能體”。

許多關鍵問題最終都指向一個核心:我們仍然不理解真正可靠的概括機制。

再補充一點。 一致性難以實現的原因之一,可能在于:

我們學習“人類價值觀”的能力本身非常脆弱,

我們優化這些價值觀的能力也非常脆弱,

而我們恰恰是在學習如何“優化它們”的過程中逐漸形成的。

于是,這引出一個更深的問題:

難道這些不是“不可靠的概括”的例子嗎?

為什么人類的概括能力似乎更強?

如果未來的系統擁有異常強大的概括能力,會怎樣?其影響是什么?

這些問題,目前都無法回答。

Dwarkesh Patel

如何想象AI發展順利的樣子?你已經展望了AI可能的發展方向。我們將擁有這類持續學習的智能體。

AI將非常強大。或許會出現許多不同的AI。你如何看待大量體量堪比大陸的計算智能體?這有多危險?我們如何降低這種危險?我們又該如何做到這一點,才能在可能存在失衡的AI和惡意行為者的情況下,維護一種平衡?

Ilya Sutskever

這正是我強調「關愛有感知生命的AI」這一概念的原因之一。它是否絕對正確可以討論,但如果最早出現的那批強大系統能真正關心、保護人類或其他有感知的生命,那么這點就必須實現。只要前N個系統做到這一點,我認為至少在相當長的時間里,局面會保持良性。

那長期會發生什么?如何實現一種穩定均衡?這個問題其實有答案,盡管我本人并不喜歡,但它值得嚴肅考慮。

從短期看,如果世界中存在強大的AI,幾乎可以預見的是:全民收入提升,每個人都過得更好。但佛教有一句話:「唯一不變的是變化本身。」政治結構、政府形態、社會秩序都會不斷變化,它們都有生命周期。新的結構出現,運行一段時間,又會在某個階段失效,我們已經無數次看到這種循環。

所以從長期來看,一種可能的模式是:每個人都擁有一個屬于自己的AI,它替你賺錢、替你爭取政治利益、替你處理社會競爭,并定期給你提交一份簡短的報告:「這是我為你做到的。」而你只需點頭:「很好,繼續吧。」

問題在于:人類完全退出了參與。這是一種高度危險的局面。

我并不喜歡下面這個方案,但它確實是一種可行路徑:讓人類通過某種類似Neuralink的技術,成為「半AI」。這樣一來,AI所理解的,我們也能理解;AI所經歷的,我們也能參與,因為這種理解會被完整地傳遞給人類。在這種情況下,AI若處于某個復雜情境中,人類可以真正「在場」,而不是旁觀者。

Dwarkesh Patel

我想知道,數百萬年前(甚至在很多情況下是數十億年前)在完全不同的環境中形成的情感,是否仍然如此強烈地指導著我們的行為,這是否是協調一致的成功例證。

為了更清楚地說明我的意思——我不知道稱之為價值函數還是獎勵函數更準確——腦干有一個指令,它會說:「和更成功的人交配。」大腦皮層理解在現代語境下成功的含義。但腦干能夠協調大腦皮層,并說:「無論你如何定義成功——我沒那么聰明,無法理解那是什么——你仍然要遵循這個指令。」

Ilya Sutskever

我認為這里還有一個更普遍的觀點。進化如何編碼高級欲望,這其實非常神秘。我們很容易理解進化如何賦予我們對香味食物的渴望,因為氣味是一種化學物質,所以我們會去追求這種化學物質。我們很容易想象進化是如何做到這一點的。

但進化也賦予了我們所有這些社交欲望。我們非常在意能否被社會正面看待。我們渴望擁有良好的社會地位。我強烈地感覺到,我們擁有的所有這些社交直覺都是根深蒂固的。我不知道進化是如何做到這一點的,因為這是一種存在于大腦中的高層次概念。

假設你關心某種社會現象,它并非像氣味那樣的低級信號,也不是某種有傳感器可以感知的東西。大腦需要進行大量處理,才能將眾多信息碎片拼湊起來,理解社會上正在發生的事情。進化似乎在告訴你:「這才是你應該關心的。」它是如何做到的呢?

而且進化速度也很快。所有這些我們所珍視的復雜社會現象,我認為都是近期才出現的。進化輕而易舉地就將這種高層次的欲望寫入了程序。至于進化是如何實現的,我目前還沒有找到一個合理的解釋。我之前也有一些想法,但都不太令人滿意。

Dwarkesh Patel

尤其令人印象深刻的是,欲望是你后天習得的,這很合理,因為你的大腦很智能。你能習得智能欲望也合情合理。也許這并非你的重點,但理解這一點的一種方式是,欲望根植于基因組之中,而基因組本身并不智能。但你卻能夠描述這種特性。你甚至不清楚自己是如何定義這種特性的,而且你還能將其構建到基因中。

Ilya Sutskever

本質上來說,或者我換個說法。想想基因組可用的工具,它就像在說:「好了,這里有一份構建大腦的配方。」你可以說:「這里有一份將多巴胺神經元連接到嗅覺感受器的配方。」如果這種氣味是某種令人愉悅的氣味,你就想吃它。

我能想象基因組會這樣做。但我認為更難想象。很難想象基因組會告訴你,你應該關心你整個大腦,或者說你大腦的很大一部分,都在進行的某些復雜計算。這就是我的觀點。我可以推測一下它是如何實現的。讓我提出一個推測,然后解釋為什么這個推測很可能是錯誤的。

所以大腦有不同的腦區。我們有大腦皮層,它包含了所有這些腦區。大腦皮層本身是均勻的,但腦區以及皮層中的神經元主要與其鄰近的神經元進行交流。這就解釋了為什么會有腦區。因為如果你想進行某種語音處理,所有負責語音處理的神經元都需要相互溝通。而由于神經元只能與其附近的神經元交流,所以大多數情況下,它們必須位于同一個腦區內。

每個人大腦中這些區域的位置基本相同。所以,或許進化在大腦中硬編碼了一個特定的位置。它就像在說:「哦,當大腦的某個特定區域(比如某個神經元)的GPS坐標被激活時,你就應該關注這個區域。」這或許就是進化的運作方式,因為這符合進化的邏輯。

Dwarkesh Patel

是的,雖然也有一些例子,比如先天失明的人,他們大腦皮層的失明區域會被其他感官所取代。我不知道,但如果大腦皮層的不同區域被其他感官所取代,那些需要視覺信號的欲望或獎勵功能是否會失效,我會感到驚訝。

例如,如果你失去了視力,你還能感受到你想讓周圍的人喜歡你等等這種感覺嗎?通常情況下,這些感覺也會有視覺線索。

Ilya Sutskever

我完全同意。我認為這個理論還有更強有力的反駁論點。有些人童年時期切除了半個大腦,但他們仍然保留著所有的大腦區域。然而,這些區域卻都以某種方式集中到了大腦的一側半球,這表明大腦區域的位置并非固定不變,因此這個理論是不成立的。

如果這是真的就好了,可惜不是。所以我覺得這真是個謎。不過,這的確是個有趣的謎。事實是,進化不知怎么地賦予了我們非常可靠地關注社會事務的能力。即使是那些患有各種奇怪精神疾病、缺陷和情緒問題的人,也往往很關心這些。

SSI

Dwarkesh Patel

SSI有什么與眾不同的計劃?你們顯然希望站在時代前沿。創辦SSI的初衷,或許正是因為你認為自己掌握一種能夠安全推進這項工作的方式,而其他公司沒有。那么,這種不同究竟在哪里?

Ilya Sutskever

在我看來,我只是有一些值得探索的想法,想驗證它們是否真正有效。就是這樣。這是一場嘗試。如果這些關于「理解與概括」的思路最終被證明是正確的,那我們就能有所收獲。

我們正在調查、驗證這些想法。我們是一家真正意義上的「研究型公司」。過去一年取得了不錯的進展,但還需要繼續推進。我認為這本質上就是一種嘗試,一種讓自己發出聲音、參與其中的方式。

Dwarkesh Patel

你們的聯合創始人兼前CEO最近去了meta。有人認為,如果公司當時取得了很多突破,這種離開似乎不太可能發生。你怎么看?

Ilya Sutskever

我只想簡單回顧一些可能被忽視的事實。當時我們正以320億美元估值進行融資,其后meta提出了收購,我拒絕了,但前聯合創始人某種程度上同意了。結果是,他獲得了大量短期流動資金,而且他是SSI唯一加入meta的人。

Dwarkesh Patel

聽起來SSI的計劃,是希望在人類邁入超人類智能時代的關鍵節點處于前沿位置。你們對如何有效利用超人類智能有自己的思路,但其他公司也在嘗試不同想法。SSI的獨特之處是什么?

Ilya Sutskever

我們的主要特點在于技術路徑。我們采用了一種我認為有價值且行之有效的方法,并正努力推進。

我覺得最終各種策略會趨于一致。隨著AI變得足夠強大,大家大概都會意識到應該采取怎樣的路線。原則上,就是找到一種可靠的溝通方式,并確保第一個真正意義上的超級智能能夠以協調、關懷、有益的方式行事——關心有感知能力的生命、關心人類,尊重民主理念,或多者兼具。

我認為這是所有公司都應該追求的目標,也是我們正在追求的目標。甚至如果其他公司現在還沒意識到,我相信它們最終也會朝著同一方向前進。隨著智能增強,世界將發生巨變,人們的行為方式也會隨之徹底改變。

Dwarkesh Patel

你對這種系統的時間預測是什么?一種能像人類一樣學習,并最終達到人類水平的系統。

Ilya Sutskever

大概5到20年。

Dwarkesh Patel

你認為未來幾年會發生什么?如果其他公司繼續沿用現有做法,最終會「停滯」?這里的「停滯」具體意味著什么?營收停留在幾千億美元?

Ilya Sutskever

停滯的情形可能是各家公司的狀況會非常相似。我并不確定,但即使「停滯」,他們仍可能獲得驚人的收入。也許利潤不高,因為彼此需要努力差異化,但收入不會低。

Dwarkesh Patel

但你似乎暗示,一旦出現正確的方法,各家公司最終都會趨同。為什么這么認為?

Ilya Sutskever

我主要指戰略協調上的趨同。技術路徑最終可能也趨同,但我指的是戰略層面:大家會逐漸清晰地意識到應該采取怎樣的做法。

Dwarkesh Patel

現在許多公司采用不同思路,你期待他們繼續創造收入,但達不到類人學習。未來或許只有少數公司找到正確方法,一旦發布,其他人就會明白應該怎么做?

Ilya Sutskever

確切的做法目前不明朗,但另一種可能性是:信息會被研究、被破解,人們會試圖弄清其原理。不過,隨著能力不斷提升,我認為某些方面會發生根本性的變化,只是現在還無法具體描述。

Dwarkesh Patel

按理說,率先建立持續學習循環的公司會獲得所有收益。為何這些收益會被廣泛分享,而不是集中在頭部企業?

Ilya Sutskever

如果回顧AI的歷史模式,會發現通常是一家公司率先突破,隨后其他公司迅速跟進,推出類似產品,在市場上競爭、壓低價格。我認為未來也會如此。

此外,在理想情況下,你也可以將超級智能限定在非常具體的窄領域,使其既強大又專業化。市場中本來就偏好多樣化、細分化。

因此,一家公司可能在某個復雜經濟活動領域表現突出,而另一家公司擅長另一個領域,還有公司可能專門在訴訟方面極具優勢。

Dwarkesh Patel

但這與類人學習的含義似乎矛盾。類人學習意味著能學任何事情。

Ilya Sutskever

確實可以。但你已經為特定領域投入大量計算、資源和經驗,積累了深厚知識,達到了極高水準。別人可能會說:「我沒必要重復你已經學過的一切。」

Dwarkesh Patel

要實現這種分化,前提是多家公司同時訓練類人學習智能體,在不同分支上展開搜索。如果只有一家率先獲得這樣的學習器,它也可以讓一個實例學習所有崗位。

Ilya Sutskever

這確實是一個合理的論點。但我的強烈直覺告訴我,事情不會這樣發展。理論上似乎是這樣,但實踐中未必如此。這就是理論與現實不一致的典型例子。

Dwarkesh Patel

很多遞歸自我改進模型認為,服務器里會有上百萬個「伊利亞」,不斷探索不同想法,從而導致超級智能迅速出現。你對并行化的收益有什么直覺?復制「你」有什么意義?

Ilya Sutskever

我不確定。我傾向認為會出現收益遞減,因為真正需要的是「思維方式不同的人」,而不是成千上萬個思維方式相同的復制體。只復制我一個人,我不認為價值會提升多少。你需要的是多樣化的思考方式。

多智能體

Dwarkesh Patel

為什么即使查看完全不同公司發布、用可能不重疊的數據集訓練出來的模型,LLM之間的相似度仍然高得驚人?

Ilya Sutskever

也許這些數據集并不像表面上看起來那樣完全不重疊。

Dwarkesh Patel

但從某種意義上說,即便單個人類的生產力遠不如未來的AI,人類團隊的多樣性或許仍比AI團隊更高。我們該如何在AI中實現這種意義上的「多樣性」?

我認為僅僅提高溫度只會讓模型胡言亂語。我們真正需要的,是類似不同科學家擁有不同偏見、不同想法的那種結構性差異。那么,怎樣才能在AI代理中產生這種多樣性?

Ilya Sutskever

我認為缺乏多樣性主要來自預訓練。所有預訓練模型最終都非常相似,因為它們都來自類似的數據。而差異更多出現在強化學習和后訓練階段,因為不同團隊會采用不同的RL訓練方法。

Dwarkesh Patel

我之前聽你提過,自博弈也許是一種獲取數據,或讓智能體與同等智能體匹配以啟動學習的方式。那么,我們應該如何理解那些當前還未公開、試圖將自博弈應用到LLM生命周期學習中的提案?

Ilya Sutskever

我想強調兩點。

第一,自博弈之所以有趣,是因為它提供了一種僅依靠計算而非數據來創建模型的方法。如果你認為數據最終是瓶頸,那能只靠算力推進,就非常值得關注。

第二,問題在于傳統形式的自博弈——讓不同個體彼此競爭——其實只能培養少數特定技能。它的適用范圍過于狹窄,只對談判、沖突處理、社交互動、策略制定之類的能力有幫助。如果你看重這些技能,自博弈當然有價值。

實際上,我認為自博弈已經找到了新的歸宿,只是形式不同。例如辯論機制、證明者–驗證者機制,它們都包含某種「由LLM擔任裁判」的結構,裁判的目標是發現你的錯誤。雖然這未必是嚴格意義上的自博弈,但確實是一種相關的對抗式機制。

更一般地說,自博弈其實是主體之間更廣泛競爭的一種特例。在競爭環境里,自然的反應就是追求差異化。

如果你把多個主體放在一起,讓他們都嘗試解決同一個問題,并觀察彼此的做法,他們會產生這樣的想法:「其他主體都在用這種方法;我是否有必要換一種完全不同的方式?」

因此,我認為類似的機制也能激勵主體發展出多樣化的方法。

研究品味

Dwarkesh Patel

最后一個問題:什么是「研究品味」?你被廣泛認為是AI領域品味極高的研究者,曾參與過AlexNet、GPT-3等深刻影響歷史的成果。你的研究品味是什么?你是如何產生那些想法的?

Ilya Sutskever

我可以分享一些自己的看法。不同研究者的方法各不相同,而對我而言,一個始終指引我的原則是:AI應當具有怎樣的「美學特征」。

這意味著要思考人類本質,但要以一種正確的方式思考。我們很容易誤解什么是「人類本質」,那么什么才是「正確理解」呢?

舉幾個例子。人工神經元的概念直接源自大腦,而且這是一個極好的想法。為什么?大腦有很多結構,比如褶皺,但那些可能并不關鍵;真正重要的是神經元數量龐大。

因此我們也需要大量神經元,需要某種局部學習規則去更新連接,因為大腦似乎也是這樣運作的。

再比如分布式表征。大腦會根據經驗改變自身,因此神經網絡也應該從經驗中學習。這不只是模擬,而是要追問:這些特征究竟是本質性的,還是偶然的?它們是否反映了「智能的根基」?

正是這種追問,在很大程度上指導了我的研究。

我傾向于從多個角度尋找「純粹的美」——美、簡潔、優雅,以及來自大腦的正確靈感。丑陋的東西沒有容身之處。如果缺乏這些元素,我就不會感到踏實;這些元素越齊全,我越能建立自上而下的信念。

這種自上而下的信念,是當實驗結果與你的直覺相矛盾時支撐你的力量。如果總是完全依賴數據,你可能會在正確的方向上因為一個未知漏洞而被絆倒,卻不知道應該堅持還是放棄。

那么你如何判斷?如何知道是繼續調試,還是該換方向?這時候,自上而下的信念就變得至關重要。

它告訴你:「事情應該是這樣的。這樣的路徑必須能奏效,我們必須堅持。」這種信念來自你對大腦的理解、對美和簡潔的偏好、來自多方面的直覺與靈感。

它會在真正關鍵的時刻起作用。

標簽: 人類 能力 模型 智能 問題 大腦 函數 公司 價值 方式 世界 算力 數據 神經元 系統 經濟 東西 時代 人們 大量 規模 領域 部署 情感 感覺 方面 關心 路徑 方法 規模化 編程 想象 現實

免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

国语自产精品视频在线看抢先版图片| 国产精品一区视频网站| 日韩电视剧免费观看网站| 国产精品久久久久久久久图文区 | 另类小说视频一区二区| 丰满少妇被猛烈进入一区二区| 无颜之月在线看| 成人综合国产精品| 欧美激情一区二区久久久| 日韩一区二区三区免费看| 中文字幕在线不卡一区| 韩国欧美一区二区| 国产免费高清视频| 青娱乐国产在线视频| 91人妻一区二区| 欧美在线观看黄| 国产精品日韩欧美一区二区三区| 欧美成人免费大片| 精品国产乱码久久久久久夜甘婷婷| 中文天堂在线一区| 国产91丝袜在线播放| 午夜18视频在线观看| 日韩国产成人在线| 国产波霸爆乳一区二区| 六月婷婷七月丁香| 粉色视频免费看| 毛片在线视频播放| 国产精品一区二区3区| 精品国产区一区| 夜夜揉揉日日人人青青一国产精品| 成人国产亚洲欧美成人综合网| 午夜视频福利在线观看| 亚洲伦理在线观看| 国产情侣在线视频| 久久激情免费视频| 欧美日韩精品亚洲精品| 国产精品久久不卡| 中文字幕在线综合| 日韩在线视频在线观看| 蜜臀av无码一区二区三区| 成人免费观看在线| 日本一本中文字幕| 99热在线这里只有精品| 亚洲理论电影在线观看| 蜜桃久久影院| 午夜欧美一区二区三区免费观看| 国产精品96久久久久久| 清纯唯美亚洲综合| 欧美最猛黑人xxxx黑人猛叫黄| 欧美xxxx做受欧美.88| 日韩中文第一页| 精品中文字幕在线2019| 欧美成人免费全部| 午夜精品久久久久久久久久久久久 | 亚洲乱码中文字幕| 亚洲国产视频网站| 亚洲国产精品欧美一二99| 亚洲r级在线视频| 色综合天天综合网天天狠天天| 综合久久综合久久| 亚洲一二三区在线观看| 亚洲日本丝袜连裤袜办公室| www久久精品| 中文字幕一区二区三区av| 亚洲福利国产精品| 91精品国产综合久久久久久久久久| 岛国av在线不卡| 日韩一区二区中文字幕| 欧美一区在线视频| 亚洲电影成人av99爱色| 亚洲欧美国产高清va在线播| 九九精品视频在线| 日本一欧美一欧美一亚洲视频| 亚洲xxx自由成熟| 日韩精品伦理第一区| 人妻av无码专区| 国产一区视频免费观看| 亚洲av无码一区东京热久久| 日韩欧美视频免费观看| 黄色一级视频免费看| 成人1区2区3区| 国产福利91精品| 亚洲私人影院在线观看| 日本电影亚洲天堂一区| 亚洲爱爱爱爱爱| 欧美高清在线观看| 成人看片在线| 黄色一级视频在线播放| 日本少妇xxxx| 丁香社区五月天| 蜜臀av一区二区三区| 成人h精品动漫一区二区三区| 亚洲一级片在线观看| 精品伦理精品一区| 久久久成人av| 国产精品第8页| 精品日韩在线播放| 伊人久久一区二区三区| 一区二区三区福利视频| 美女免费视频一区| 国产精品不卡一区| 性感美女久久精品| 精品国产一区二区亚洲人成毛片| 色综合天天狠天天透天天伊人 | 成人av综合一区| 五月天精品一区二区三区| 91.成人天堂一区| 57pao成人国产永久免费| 亚洲最大免费| 成人亚洲免费视频| 欧洲美女女同性互添| 中文字幕一二区| av一区二区三区四区| 51精品秘密在线观看| 欧美大片va欧美在线播放| 亚洲欧美成人一区| 真实乱视频国产免费观看| 好吊色在线观看| 中文字幕欧美日本乱码一线二线| 3atv在线一区二区三区| 色综合91久久精品中文字幕 | 国产日韩精品中文字无码| 三级一区在线视频先锋| 日韩欧美a级成人黄色| 久久久久久国产| 日韩精品一区二区在线视频| 欧美丰满艳妇bbwbbw| 国产成都精品91一区二区三| 7777精品伊人久久久大香线蕉 | 在线视频一区二区三区四区| 成人av高清在线| 亚洲国产91精品在线观看| 99国产超薄丝袜足j在线观看 | 91久久精品国产91性色| 色www免费视频| 成人无码精品1区2区3区免费看| 日韩视频在线观看一区| 国产精品剧情在线亚洲| 日本va欧美va精品发布| 国产高清自拍视频| 另类小说第一页| 中日韩黄色大片| 韩国av一区二区三区四区| 日韩欧美中文字幕一区| 成人免费午夜电影| 午夜福利123| 亚洲国产日韩在线观看| 五月天婷婷综合| 日韩在线视频免费观看| 韩国一区二区三区美女美女秀 | 亚洲国产欧美一区二区三区丁香婷| 久久久久久久国产精品视频| 91制片厂毛片| 久久午夜精品| 精品少妇一区二区三区在线视频| 午夜精品视频在线观看一区二区| 久久精品国产亚洲av久| 99久久久精品| 欧美激情精品在线| 97视频在线免费播放| 免费av网站观看| 精品国产乱码久久久久久浪潮 | 北条麻妃亚洲一区| 国产精品无码一区二区桃花视频| 欧美日韩精品在线| 欧美成人免费在线| 黄色污污网站在线观看| 亚洲制服丝袜av| 国产精成人品localhost| 国产一级特黄视频| 精品美女久久久久久免费| 国产欧美一区二区三区视频 | 美女福利视频一区| 成年人免费在线播放| 秋霞午夜av一区二区三区| 日韩一区二区三区在线观看| 久草一区二区| 18精品爽视频在线观看| 亚洲国产精品99久久久久久久久 | 欧美日本亚洲| 国产精品久久久久久久久久久久久久久久久久 | 欧美一级成年大片在线观看 | 美女一区二区视频| 精品久久国产精品| 成人三级做爰av| 国产视频一区二区三区在线观看| 国产91在线播放| 成人18视频免费69| 欧美日韩亚洲系列| 欧美少妇一区二区三区| 中文字幕+乱码+中文字幕明步 | 久久久久久久久久久一区| 狠狠人妻久久久久久综合| 日韩一区二区三区观看| 少妇大叫太大太粗太爽了a片小说| 日批视频免费播放| 日韩视频在线一区| 男生草女生视频| 亚洲aaa精品| 午夜精品一区二区在线观看的 | 日韩一区二区三| 天堂在线中文在线| 久久久久久久久久久久久夜| 91久久精品一区二区别| 无码任你躁久久久久久久| 亚洲国产精彩中文乱码av在线播放| 亚洲小视频网站| 成人免费一区二区三区在线观看| 国产精品电影网| 国产真人真事毛片| 欧美日韩免费一区二区三区视频| 色欲色香天天天综合网www| 国产精品系列在线观看| 国产二区不卡| 米奇777在线欧美播放| 欧美国产日韩中文字幕在线| 影音先锋亚洲天堂| 日韩一区二区三区国产| 国产精品111| 亚洲一级黄色av| 小嫩苞一区二区三区| 精品久久久久久最新网址| 三大队在线观看| 欧美日韩日本国产| 国产女女做受ⅹxx高潮| 国产精品久久久久久久久免费桃花 | 欧美一区二区三区精美影视| 另类综合日韩欧美亚洲| 99超碰麻豆| 蜜桃视频免费观看一区| 激情视频一区二区| 老司机一区二区| 青青草成人网| 久久精品一区二区三区不卡| 欧洲成人一区二区| 99精品热视频| 亚洲 欧洲 日韩| 最新热久久免费视频| 久久最新免费视频| 99精品视频在线观看免费| 99精品视频网站| 亚洲视频在线观看三级| 色一情一乱一伦一区二区三区日本| 国产精品视频免费| 日韩精品一区二区三区色欲av| 激情懂色av一区av二区av| 视频免费1区二区三区| 大荫蒂欧美视频另类xxxx| 天天综合网日韩| 欧美日韩精品一区二区三区蜜桃| 三级黄色片播放| 日韩一区二区三区精品视频| 影音先锋制服丝袜| 欧美日韩国产成人高清视频| 男人的天堂a在线| 日本一区精品| 亚洲第一精品在线| 国产伦精品一区二区三区妓女 | 成人在线观看毛片| 国产片一区二区三区| 欧美国产日韩激情| 福利二区91精品bt7086| 日韩www视频| 欧美本精品男人aⅴ天堂| 农村妇女精品一区二区| 欧美黑人性猛交| 美女看a上一区| 久久久噜噜噜www成人网| 欧美午夜美女看片| 国内精品卡一卡二卡三| 色在人av网站天堂精品| 日韩视频在线一区二区| 日韩大尺度视频| 亚洲欧美成人一区二区在线电影| 久久人妻无码aⅴ毛片a片app| 69av在线视频| 国产精品亚洲成人| 手机免费看av网站| 亚洲无限av看| 国产又粗又大又爽| 亚洲人成网站在线播放2019| 亚洲激情五月婷婷| 免费看日本黄色片| 国产欧美一区二区三区四区| 成人三级伦理片| www.黄色网| 久久精品2019中文字幕| 激情综合色播激情啊| 成年人午夜免费视频| 欧美绝品在线观看成人午夜影视| 亚洲不卡在线视频| 国产精品久久久久av福利动漫| 亚洲另类在线制服丝袜| 制服丝袜第一页在线观看| 伊人久久久久久久久久久久久 | 999在线免费视频| 精品网站999www| 蜜桃精品视频在线观看| 麻豆一区二区三区在线观看| 在线成人小视频| 九九九免费视频| 99久久精品无码一区二区毛片| 日韩一区欧美一区| 久久精品三级视频| 51成人做爰www免费看网站| 高跟丝袜一区二区三区| 波多野结衣视频在线看| 特级西西444| 中文字幕日韩免费视频| 国产精品一区二区91| 在线播放av网址| 91丝袜美腿美女视频网站| 亚洲精品视频在线| 最近中文字幕在线观看| 亚洲欧美精品| 欧美一区二区三区影视| 久久黄色级2电影| 欧美激情 亚洲| 庆余年2免费日韩剧观看大牛| 一区二区不卡在线播放 | 精品久久久久久亚洲综合网站| 欧美日韩亚洲一二三| 午夜精品三级视频福利| 精品久久久视频| 久久九九国产| 美女伦理水蜜桃4| 精品国产中文字幕| 一本色道久久综合狠狠躁篇的优点 | 亚洲一区二区三区色| 日韩综合视频在线观看| 91热门视频在线观看| 午夜国产福利一区二区| 大地资源第二页在线观看高清版| 亚洲成色www8888| 国产人伦精品一区二区| 国产大片中文字幕在线观看| 免费无遮挡无码永久视频| 2020久久国产精品| 五月婷婷综合激情| 亚洲福利在线观看视频| 香蕉视频久久久| 每日在线观看av| 欧美专区在线播放| 精品国产乱码久久久久久影片| av在线免费不卡| 亚洲视频 欧美视频| 精品国产aⅴ一区二区三区东京热 久久久久99人妻一区二区三区 | 最近2019年中文视频免费在线观看| 97se亚洲国产综合自在线| 国产乱码在线观看| youjizz.com国产| 精品国产一区二区三区麻豆免费观看完整版 | 伊人久久久久久久久| 国产一区免费在线| 欧美成人亚洲成人日韩成人| 亚洲美女少妇撒尿| 熟妇高潮一区二区高潮| 久久免费公开视频| 特黄视频免费观看| 日韩欧美在线电影| 欧美极品少妇与黑人| 欧美巨大另类极品videosbest| 久久综合九色综合97_久久久 | 亚洲精品国产无天堂网2021| 久久国产精品72免费观看| 欧美三级午夜理伦| av网站免费在线播放| 免费在线观看毛片网站| 久久另类ts人妖一区二区| 欧美激情视频免费观看| 欧美成人女星排行榜| 亚洲男人电影天堂| 国产精品中文字幕欧美| h片在线免费看| 女人十八岁毛片| 国产精品高清无码在线观看| 黄色片在线免费| 日本a在线天堂| 亚洲一区二区三区毛片| 性欧美xxxx交| 神马久久久久久| 51午夜精品国产| 亚洲精品国产第一综合99久久| 波多野结衣在线aⅴ中文字幕不卡 波多野结衣在线一区 | 成人免费观看a| 全球成人中文在线| 欧美xxxx18国产| 亚洲精品二三区| 欧美日韩国产免费一区二区| 国产片一区二区三区| thepron国产精品| 国产乱理伦片在线观看夜一区 | 欧美性猛交xxxxxxxx| 国产精品妹子av| 久久综合999| 国产尤物一区二区在线| 久久久噜噜噜| 亚洲爱情岛论坛永久| 亚洲视频久久久| 最新中文字幕第一页| 国产主播第一页| 亚洲精品久久久久久久蜜桃| 欧美bbbbb性bbbbb视频| 无套内谢丰满少妇中文字幕 | 深夜福利国产精品| 日韩高清欧美高清| 亚洲色图综合久久| 亚洲第一国产精品| 亚洲毛片一区二区| 亚洲一区www|