|未經(jīng)許可不得轉(zhuǎn)載星標(biāo)本號獲取最新頂級認(rèn)知|
![]()
整理: Web3天空之城
城主說| 知名科技播客Lenny's Post最新對話了被譽(yù)為“人工智能教母”的李飛飛博士。李飛飛最新世界模型 Marble剛剛?cè)ψ永镄⌒∷⒘似? 她在這次最新專訪里分享了人工智能從“寒冬”走向爆發(fā)的歷史,特別是她開創(chuàng)性的ImageNet項(xiàng)目如何成為引爆深度學(xué)習(xí)革命的火花。訪談探討了當(dāng)前AI技術(shù)的局限性,并引出了超越語言模型的下一個前沿——世界模型與空間智能。李飛飛還介紹了她創(chuàng)立的公司W(wǎng)orld Labs及其首款產(chǎn)品Marble,并就機(jī)器人的未來、創(chuàng)始人的心路歷程以及以人為本的AI發(fā)展理念分享了深刻見解。
在深入探討之前,以下是本次對話的核心觀點(diǎn):
? “大數(shù)據(jù)(ImageNet)、神經(jīng)網(wǎng)絡(luò)算法和GPU,這三者的結(jié)合是現(xiàn)代人工智能的黃金配方。快進(jìn)到ChatGPT時刻,它仍然使用了這三種成分。”
? “超越語言,連接具身人工智能(即機(jī)器人技術(shù))和視覺智能的關(guān)鍵,是對世界理解的空間智能。這就是世界模型。”
? “機(jī)器人更接近于自動駕駛汽車,而不是大型語言模型。自動駕駛汽車是在二維表面上運(yùn)行的金屬盒子,目標(biāo)是不接觸任何東西。機(jī)器人是在三維世界中運(yùn)行的三維物體,目標(biāo)是接觸事物。”
? “人工智能中沒有任何東西是人為的。它受人啟發(fā),由人創(chuàng)造,最重要的是,它影響著人。無論人工智能現(xiàn)在或?qū)碜鍪裁矗既Q于我們。”
? “任何技術(shù)都不應(yīng)該剝奪人的尊嚴(yán)。人類的尊嚴(yán)和自主性應(yīng)該成為每項(xiàng)技術(shù)的開發(fā)、部署以及治理的核心。每個人都在人工智能中扮演著角色。”
完整視頻:
時間戳章節(jié):
00:00:00 人工智能的演進(jìn):AI教母的樂觀視角與負(fù)責(zé)任的個人行動
00:09:37 追溯AI歷史:從“寒冬”到ImageNet的誕生與深度學(xué)習(xí)的基石
00:23:53 超越AGI:當(dāng)前AI的局限、創(chuàng)新需求與空間智能世界模型的核心價值
00:40:45 具身智能的挑戰(zhàn):數(shù)據(jù)、物理系統(tǒng)與世界實(shí)驗(yàn)室Marble模型的問世
00:50:52 Marble的實(shí)際應(yīng)用、3D模型與視頻的區(qū)別以及創(chuàng)始人的競爭警覺 01:04:47 事業(yè)選擇的無畏精神:創(chuàng)辦HAI,聚焦使命與人工智能的仁慈框架
走出“AI寒冬”:ImageNet的誕生與現(xiàn)代AI的黃金配方
今天,每一家公司都爭相標(biāo)榜自己為“AI公司”,但在不到十年前,情況卻截然相反。李飛飛回憶起那段時期,語氣中帶著一絲感慨。“在2015年中到2016年中這段時間,一些科技公司避免使用‘人工智能’這個詞,因?yàn)樗麄儾淮_定人工智能是否是一個負(fù)面詞匯。大約從2017年開始,公司才開始自稱為人工智能公司。”
這種轉(zhuǎn)變的背后,是一場由數(shù)據(jù)點(diǎn)燃的革命,而李飛飛正是那個點(diǎn)火人。在21世紀(jì)初,AI領(lǐng)域正處于所謂的“寒冬”,研究人員擁有各種精巧的數(shù)學(xué)模型,卻普遍面臨一個痛點(diǎn):缺乏足夠的數(shù)據(jù)進(jìn)行訓(xùn)練。作為一名年輕的教授,李飛飛敏銳地意識到,人類的學(xué)習(xí)本身就是一個大數(shù)據(jù)過程。“我突然意識到,人類學(xué)習(xí)以及進(jìn)化實(shí)際上是一個大數(shù)據(jù)學(xué)習(xí)過程。要使人工智能栩栩如生,一個非常關(guān)鍵但被忽視的要素就是大數(shù)據(jù)。”
基于這一洞察,她和她的學(xué)生在2006年啟動了一個雄心勃勃的項(xiàng)目——ImageNet。他們的目標(biāo)是為機(jī)器提供海量的、帶有標(biāo)簽的圖像數(shù)據(jù),模擬人類孩子通過觀察世界來學(xué)習(xí)的過程。經(jīng)過艱苦卓絕的努力,他們創(chuàng)建了一個包含1500萬張圖像、覆蓋22000個概念的龐大數(shù)據(jù)庫,并將其開源。
轉(zhuǎn)折點(diǎn)發(fā)生在2012年。由杰夫·辛頓(Geoff Hinton)教授領(lǐng)導(dǎo)的多倫多大學(xué)團(tuán)隊(duì),利用ImageNet的數(shù)據(jù)、兩塊英偉達(dá)的游戲GPU和一種深度神經(jīng)網(wǎng)絡(luò)算法,在當(dāng)年的ImageNet挑戰(zhàn)賽中取得了顛覆性的成果。這一刻,被廣泛認(rèn)為是現(xiàn)代AI的“宇宙大爆炸”時刻。“而這三者的結(jié)合,即技術(shù)、大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)和GPU,是現(xiàn)代人工智能的黃金配方,” 李飛飛強(qiáng)調(diào),“快進(jìn)到人工智能的公共時刻,也就是ChatGPT時刻,如果你看看將ChatGPT帶到世界上的成分,它仍然使用了這三種成分。” 從兩塊游戲GPU到如今成千上萬的算力集群,這個“黃金配方”至今仍在驅(qū)動著整個行業(yè)。
AI的現(xiàn)狀與下一個前沿:超越語言的世界模型
盡管大型語言模型(LLM)取得了驚人的成就,但李飛飛清晰地看到了其能力的邊界。她指出,當(dāng)前最先進(jìn)的AI仍然無法完成許多在人類看來理所當(dāng)然的任務(wù)。“今天,你拿一個模型,讓它運(yùn)行一段包含幾個辦公室房間的視頻,然后要求模型數(shù)一下椅子的數(shù)量。這是幼兒就能做到的事情,而人工智能卻做不到。” 更不用說像牛頓那樣,從觀察中推導(dǎo)出普適的物理定律,或是擁有與人類共情的情感智能。
在她看來,AI的創(chuàng)新遠(yuǎn)未結(jié)束,而下一個重大的突破口在于超越文本,進(jìn)入對物理世界的理解。“人類已經(jīng)利用我們的空間智能和對世界的理解來做了很多事情,而這些事情超越了語言,” 她解釋道,“除了語言之外,連接額外智能的關(guān)鍵,以及連接具身人工智能(即機(jī)器人技術(shù)),連接視覺智能的關(guān)鍵,是對世界理解的空間智能。那就是世界模型。”
世界模型,顧名思義,是能夠理解、推理、交互并創(chuàng)造三維乃至四維(包含時間)世界的基礎(chǔ)模型。它不僅是實(shí)現(xiàn)高級機(jī)器人智能的關(guān)鍵缺失環(huán)節(jié),也將在科學(xué)發(fā)現(xiàn)、設(shè)計(jì)創(chuàng)造等領(lǐng)域極大地增強(qiáng)人類自身的能力。正如沃森和克里克需要憑借空間想象力,從一張二維X光照片中推導(dǎo)出DNA的三維雙螺旋結(jié)構(gòu)一樣,空間智能是人類認(rèn)知中不可或缺的一環(huán)。李飛飛相信,AI輔助的空間智能將釋放出巨大的潛力。
Marble發(fā)布:一個人人皆可創(chuàng)造的3D世界
為了將“世界模型”的構(gòu)想變?yōu)楝F(xiàn)實(shí),李飛飛創(chuàng)立了World Labs公司,并于近期發(fā)布了其首款產(chǎn)品——Marble。這是一款革命性的應(yīng)用,它允許用戶通過簡單的文本或圖像提示,生成一個可以自由探索和互動的、完整的3D世界。
“我們花了一年多的時間來構(gòu)建世界上第一個可以輸出真正3D世界的生成模型,” 李飛飛介紹道。Marble與Sora等視頻生成模型有著本質(zhì)區(qū)別。視頻是被動觀看的二維流,而Marble生成的是一個具有內(nèi)在三維結(jié)構(gòu)、可導(dǎo)航、可交互的空間。“我們真的希望創(chuàng)作者、設(shè)計(jì)師、開發(fā)者能夠掌握一個可以為他們提供具有三維結(jié)構(gòu)的世界的模型,以便他們可以將其用于他們的工作。”
Marble的應(yīng)用場景已經(jīng)迅速涌現(xiàn)。在電影虛擬制作領(lǐng)域,它能將制作周期縮短40倍;游戲開發(fā)者可以利用它快速生成多樣化的游戲環(huán)境;機(jī)器人研究人員能用它創(chuàng)建豐富的模擬場景以訓(xùn)練AI代理。一個心理學(xué)家團(tuán)隊(duì)甚至聯(lián)系他們,希望用Marble為患者創(chuàng)建特定的沉浸式環(huán)境,用于心理治療研究。這恰恰印證了一個經(jīng)典的創(chuàng)新定律:“下一個偉大的事物最初會讓人覺得像個玩具。”
機(jī)器人的挑戰(zhàn)與“苦澀的教訓(xùn)”
機(jī)器人被普遍視為AI的下一個重要落點(diǎn),而世界模型正是為其打造“大腦”的關(guān)鍵。然而,通往通用機(jī)器人的道路充滿挑戰(zhàn)。AI領(lǐng)域有一個著名的“苦澀的教訓(xùn)”(The Bitter Lesson),即擁有海量數(shù)據(jù)的簡單模型最終總能勝過擁有較少數(shù)據(jù)的復(fù)雜模型。但李飛飛指出,這個教訓(xùn)無法簡單地復(fù)制到機(jī)器人領(lǐng)域。
最大的障礙在于數(shù)據(jù)。“語言模型擁有一個完美的設(shè)置,它們的訓(xùn)練數(shù)據(jù)是單詞,最終產(chǎn)出的也是文字。但在機(jī)器人技術(shù)中,你希望獲得的是行動,但你的訓(xùn)練數(shù)據(jù)(如網(wǎng)絡(luò)視頻)缺乏在3D世界中的行動。” 這種訓(xùn)練目標(biāo)與數(shù)據(jù)形態(tài)之間的錯位,是機(jī)器人學(xué)習(xí)的核心難題。
更重要的是,機(jī)器人是一個物理系統(tǒng)。“機(jī)器人更接近于自動駕駛汽車,而不是大型語言模型,” 李飛飛犀利地指出,“自動駕駛汽車是在二維表面上運(yùn)行的金屬盒子,目標(biāo)是不接觸任何東西。機(jī)器人是在三維世界中運(yùn)行的三維物體,目標(biāo)是接觸事物。” 從2005年第一輛自動駕駛原型車誕生至今近20年,我們?nèi)晕赐耆鉀Q這個問題。機(jī)器人的復(fù)雜性遠(yuǎn)超于此,這意味著它的發(fā)展將是一場涉及硬件、軟件、供應(yīng)鏈和應(yīng)用場景的漫長征程。
以人為本:AI的終極責(zé)任與未來愿景
在推動技術(shù)前沿的同時,李飛飛始終將“人”置于中心。她聯(lián)合創(chuàng)辦了斯坦福大學(xué)“以人為本人工智能研究所”(HAI),致力于為AI的發(fā)展構(gòu)建一個以人類福祉為導(dǎo)向的框架。“人工智能中沒有任何東西是人為的,” 她在國會作證時如是說,“它受人啟發(fā),由人創(chuàng)造,最重要的是,它影響著人。”
她堅(jiān)信,技術(shù)本身是雙刃劍,其最終走向完全取決于人類的選擇。面對各行各業(yè)普通人“AI會取代我的工作嗎?”的普遍焦慮,她的回答充滿了力量和樂觀。“任何技術(shù)都不應(yīng)該剝奪人的尊嚴(yán)。人類的尊呈和自主性應(yīng)該成為每項(xiàng)技術(shù)的開發(fā)、部署以及治理的核心。”
她鼓勵藝術(shù)家擁抱AI作為增強(qiáng)創(chuàng)造力的工具,鼓勵農(nóng)民和護(hù)士等所有公民積極參與到AI發(fā)展的社會討論中,確保技術(shù)被用于解決真實(shí)世界的問題,而不是加劇不平等。“非常重要的是,即使像我這樣的技術(shù)人員也真誠地認(rèn)為每個人都在人工智能中扮演著角色,” 李飛飛總結(jié)道。
從點(diǎn)燃深度學(xué)習(xí)革命的火花,到構(gòu)建理解物理世界的“世界模型”,再到倡導(dǎo)以人為本的治理框架,李飛飛的旅程始終貫穿著一個簡單的信念:科技的終極目標(biāo),是增強(qiáng)而非取代人類,是服務(wù)于全人類的尊嚴(yán)與共同的未來。
web3天空之城全文整理版 序幕:人工智能的樂觀主義者
Lenny: 今天我的嘉賓是李飛飛博士,她被稱為人工智能教母。李飛飛一直在許多引發(fā)我們目前正在經(jīng)歷的人工智能革命的最大突破的核心,并對此負(fù)責(zé)。她率先創(chuàng)建了ImageNet,這基本上是她意識到人工智能需要大量的干凈標(biāo)簽數(shù)據(jù)才能變得更聰明。這個數(shù)據(jù)集成為突破口,促成了當(dāng)前構(gòu)建和擴(kuò)展人工智能模型的方法。她曾任谷歌云的首席人工智能科學(xué)家,一些最早的重大技術(shù)突破就源于此。她曾任斯坦福大學(xué)人工智能實(shí)驗(yàn)室(SAIL)的主管,許多最杰出的人工智能人才都出自那里。她還是斯坦福大學(xué)以人為本人工智能研究所的聯(lián)合創(chuàng)始人,該研究所在人工智能的發(fā)展方向上發(fā)揮著至關(guān)重要的作用。她還曾擔(dān)任Twitter的董事會成員。她被《時代》雜志評為人工智能領(lǐng)域100位最具影響力的人物之一。她還在聯(lián)合國顧問委員會任職,我可以繼續(xù)說下去。
在我們的談話中,李飛飛簡要地分享了人工智能領(lǐng)域如何發(fā)展到今天的歷史,包括一個令人震驚的提醒,即在9到10年前,自稱是一家人工智能公司基本上是對你品牌的喪鐘,因?yàn)闆]有人相信人工智能真的會奏效。今天,情況完全不同了。每家公司都是一家人工智能公司。我們還聊了她對人工智能未來如何影響人類的看法,當(dāng)前技術(shù)能帶我們走多遠(yuǎn),以及她為何如此充滿激情。關(guān)于構(gòu)建世界模型,以及世界模型到底是什么。最令人興奮的是,世界上首個大型世界模型Marble的發(fā)布,它正好在這個播客發(fā)布時推出,任何人都可以訪問marble.worldlabs.aI來體驗(yàn)。這太瘋狂了。一定要去看一下。李飛飛非常了不起,但就她對世界的影響而言,她獲得的關(guān)注還遠(yuǎn)遠(yuǎn)不夠,所以我很高興能邀請到她,并與更多人分享她的智慧。
飛飛,非常感謝你的到來,歡迎來到播客節(jié)目。
李飛飛: 我很高興來到這里,萊尼。我更高興能邀請你來。
Lenny: 能和你聊天真是太好了。我有很多想和你聊的。你一直處在我們現(xiàn)在看到的這場人工智能爆發(fā)的中心。我們將討論許多歷史,我認(rèn)為很多人甚至不知道這件事是如何開始的。但首先讓我念一段《連線》雜志關(guān)于你的引言,以便讓人們了解一下。在介紹中,我會分享你所做的所有其他史詩般的事情,但我認(rèn)為這是一種很好的方式來設(shè)定背景。費(fèi)伊·費(fèi)伊是極少數(shù)科學(xué)家的其中之一,這個群體可能小到足以圍坐在廚房餐桌旁,他們對人工智能最近的顯著進(jìn)步負(fù)有責(zé)任。很多人稱你為人工智能教母。而且與許多人工智能領(lǐng)導(dǎo)者不同,你是一位人工智能樂觀主義者。你不認(rèn)為人工智能會取代我們。你不認(rèn)為它會奪走我們所有的工作。你不認(rèn)為它會殺了我們。所以我想從這里開始會很有趣。你對人工智能將如何影響有什么看法?隨著時間的推移,對人類的影響。
李飛飛: 是的。Lenny,我先說明白。我不是一個烏托邦主義者。所以并不是說我認(rèn)為人工智能不會對工作或人們產(chǎn)生任何影響。事實(shí)上,我是一個人道主義者。我相信人工智能目前或未來所做的一切都取決于我們。這取決于人們。
所以我確實(shí)相信科技對人類來說是凈收益。如果你縱觀文明的漫長進(jìn)程,我認(rèn)為我們是,而且從根本上說,我們是一個創(chuàng)新的物種,如果你從幾千年前的書面記錄到現(xiàn)在來看,人類一直在創(chuàng)新自身,創(chuàng)新我們的工具。隨之而來,我們讓生活變得更好,讓工作變得更好,我們建設(shè)文明。而且我確實(shí)相信人工智能是其中的一部分。這就是樂觀的來源。來自。但每項(xiàng)技術(shù)都是一把雙刃劍。如果我們作為一個物種、作為一個社會、作為一個社區(qū)、作為個體,沒有做正確的事情,我們也會把事情搞砸。
Lenny: 這里有一句話。我認(rèn)為這是你在國會演講的時候說的。人工智能沒有什么是人為的。它是受人啟發(fā)的。它是人創(chuàng)造的,最重要的是,它影響著人們。我那里沒有什么問題,但是多么棒的一句話啊。
李飛飛: 我感觸很深。我從二十多年前就開始研究人工智能,并且在過去的二十年里一直在帶學(xué)生。幾乎每個畢業(yè)的學(xué)生,我都會提醒他們,當(dāng)他們從我的實(shí)驗(yàn)室畢業(yè)時,他們的領(lǐng)域被稱為人工智能,但它沒有任何人為的成分。
Lenny: 回到你剛才提出的關(guān)于這完全取決于我們,關(guān)于這一切將走向何方,你認(rèn)為我們需要做對的是什么?我們需要做對的是什么。我們?nèi)绾巫屖挛镒呱险墸克麄冎肋@是一個非常難回答的問題,但到底應(yīng)該怎樣,你的建議是什么?你認(rèn)為我們應(yīng)該怎么做?比如我們有多少時間?我們?nèi)绾螌R人工智能?
李飛飛: 所以我認(rèn)為無論我們做什么,人們都應(yīng)該是有責(zé)任感的個體。這是我們教導(dǎo)孩子們的,也是我們作為成年人需要做的,無論你參與人工智能開發(fā)、人工智能部署還是人工智能應(yīng)用的哪個環(huán)節(jié)?而且很可能我們中的許多人,尤其是作為技術(shù)人員,身兼數(shù)職,我們應(yīng)該像有責(zé)任感的個體一樣行事,并且關(guān)心這件事,實(shí)際上要非常關(guān)心這件事。我認(rèn)為今天每個人都應(yīng)該關(guān)心人工智能,因?yàn)樗鼘⒂绊懩愕膫€人生活。它將影響你的社區(qū),它將影響社會和未來一代。作為負(fù)責(zé)任的人關(guān)心它,是第一步,也是最重要的一步。
走出“AI寒冬”
Lenny: 好的。所以讓我,讓我實(shí)際上退一步,回到人工智能的開端。大多數(shù)人開始聽說并關(guān)注人工智能,就是它今天被稱為的樣子。我不知道,幾年前ChatGPT出現(xiàn)的時候,也許是三年前。
李飛飛: 三年前,還差一個月就三年了。
Lenny: 好的。那就是ChatGPT的出現(xiàn)嗎?這是你心目中的里程碑嗎?你想到的?好的,明白了。我完全同意你的看法。但很少有人知道,人們?yōu)榇艘呀?jīng)努力了很長時間。那時它被稱為機(jī)器學(xué)習(xí),還有其他的術(shù)語,而現(xiàn)在一切都被稱作人工智能。曾經(jīng)有一段很長的時間,很多人都在為此努力。后來就出現(xiàn)了人們所說的“人工智能寒冬”,那時人們幾乎放棄了。大多數(shù)人都放棄了,覺得這個想法行不通。而你的工作實(shí)際上是將我們從人工智能寒冬中帶出來的火花,并且是直接的。你要對現(xiàn)在這個我們只談?wù)撊斯ぶ悄艿氖澜缲?fù)責(zé),正如你剛才所說,它將影響我們所做的一切。所以我覺得聽聽你的看法會很有趣,比如ImageNet之前的世界是什么樣的,你做了哪些工作來創(chuàng)建ImageNet,為什么這如此重要,以及之后發(fā)生了什么。
李飛飛: 對我來說,很難記住人工智能對每個人來說都是如此新鮮的事物,因?yàn)槲艺麄€職業(yè)生涯都在人工智能領(lǐng)域度過。對我來說,看到我從青少年時期就開始的個人好奇心。而且現(xiàn)在已經(jīng)成為我們文明的變革力量,這讓我非常滿足。它通常是一種文明級別的技術(shù)。所以,那段旅程大約有30年或20多年,20年以上。這真是令人非常滿意。
那么我到底是從哪里開始的呢?我甚至不是第一代人工智能研究員。第一代實(shí)際上可以追溯到50年代和60年代。而且,艾倫·圖靈在40年代就超越了時代,大膽地向人類提出了一個問題:我們能否,是否存在有思維的機(jī)器,當(dāng)然,他有一種特定的方法來測試這個概念。即思維機(jī)器,也就是一個對話式聊天機(jī)器人,按照他的標(biāo)準(zhǔn),我們現(xiàn)在就擁有一臺思維機(jī)器。
Lenny: 但這只是一個更具軼事性的靈感。
李飛飛: 這個領(lǐng)域真正開始于50年代,當(dāng)時計(jì)算機(jī)科學(xué)家們聚集在一起,研究如何使用計(jì)算機(jī)程序和算法來構(gòu)建這些程序,這些程序可以做那些只有人類認(rèn)知才能做的事情。那么,這就是開端和奠基者,達(dá)特茅斯學(xué)院,1956年的研討會。我們有約翰·麥卡錫教授,他后來到了斯坦福大學(xué),他創(chuàng)造了“人工智能”這個術(shù)語。在50年代、60年代、70年代和80年代,那是人工智能探索的早期階段。我們有邏輯系統(tǒng),我們有專家系統(tǒng)。我們還有對神經(jīng)網(wǎng)絡(luò)的早期探索。
然后到了80年代末、90年代以及21世紀(jì)初。大約20年的時間實(shí)際上是機(jī)器學(xué)習(xí)的開端。這是計(jì)算機(jī)編程和統(tǒng)計(jì)學(xué)之間的結(jié)合。這種結(jié)合為人工智能帶來了一個非常非常關(guān)鍵的概念,那就是純粹基于規(guī)則的程序無法解釋我們想象中計(jì)算機(jī)能夠?qū)崿F(xiàn)的巨大認(rèn)知能力。所以我們必須使用機(jī)器來學(xué)習(xí)模式。一旦機(jī)器能夠?qū)W習(xí)這些模式,它就有希望做更多的事情。例如,如果你給它三只貓,希望不僅僅是機(jī)器能夠識別這三只貓。希望是機(jī)器能夠識別第四只貓、第五只貓、第六只貓以及所有其他的貓。這是一種對人類和有意義的動物來說至關(guān)重要的學(xué)習(xí)能力。而且,我們,我們作為一個領(lǐng)域,意識到,我們知道,機(jī)器學(xué)習(xí)。
以上是直到21世紀(jì)初的情況。我實(shí)際上是在2000年進(jìn)入人工智能領(lǐng)域的。那是我在加州理工學(xué)院開始攻讀博士學(xué)位的那一年。所以我算是第一代機(jī)器學(xué)習(xí)研究人員之一。我們已經(jīng)在研究機(jī)器學(xué)習(xí)的概念,特別是神經(jīng)網(wǎng)絡(luò)。我記得我在加州理工學(xué)院上的第一門課程之一就叫做神經(jīng)網(wǎng)絡(luò)。但它非常非常,但它非常,它仍然處于所謂的“人工智能寒冬”之中,這意味著公眾不太關(guān)注它。沒有那么多資金,但也有很多想法涌現(xiàn)。
Lenny: 很多人稱你為人工智能教母。你所做的工作實(shí)際上是帶領(lǐng)我們走出人工智能寒冬的火花。
李飛飛: 在2015年中到2016年中這段時間,一些科技公司避免使用“人工智能”這個詞,因?yàn)樗麄儾淮_定人工智能是否是一個負(fù)面詞匯。大約從2017年開始,公司開始自稱為人工智能公司。
Lenny: 有這么一句話,我想這是你在國會作報告時說的。人工智能中沒有任何人工的東西。它的靈感來源于人。它是人創(chuàng)造的,最重要的是,它影響著人。
李飛飛: 并非我認(rèn)為人工智能不會對工作或人產(chǎn)生影響。事實(shí)上,我相信無論人工智能現(xiàn)在或?qū)碜鍪裁矗既Q于我們。這取決于人們。我確實(shí)相信技術(shù)對人類來說是凈收益,但我認(rèn)為每項(xiàng)技術(shù)都是一把雙刃劍。如果我們作為一個社會,作為個人,沒有做正確的事情,我們也會把事情搞砸。
ImageNet的誕生與現(xiàn)代AI的黃金配方
Lenny: 你有這種突破性的洞察力,即,我們可以訓(xùn)練機(jī)器像人類一樣思考,但只是缺少人類作為孩子必須學(xué)習(xí)的數(shù)據(jù)。
李飛飛: 我認(rèn)為有兩件事發(fā)生在我身上,使我自己的職業(yè)生涯與現(xiàn)代人工智能的誕生如此接近,那就是我選擇通過視覺智能的視角來看待人工智能,因?yàn)槿祟愂歉叨纫曈X化的動物。我們稍后可以多談一點(diǎn),但我們的大部分智能是建立在視覺、感知、空間理解之上的,而不僅僅是語言本身。我認(rèn)為它們是互補(bǔ)的。所以我選擇關(guān)注視覺智能,在我的博士和早期教授生涯中,我和我的學(xué)生們都致力于解決一個北極星問題,那就是解決物體識別問題,因?yàn)樗歉兄澜绲幕覀冊谑澜绺鞯剡M(jìn)行解釋、推理,并在或多或少在物體層面與世界互動。我們不是在分子層面與世界互動的。我們不會像有時那樣與世界互動,但我們很少這樣做,例如,如果你想拿起一個茶壺,你不會說,好的,這個茶壺由一百塊瓷器組成,讓我來處理這100塊瓷器。你把它看作一個物體并與之互動。所以物體真的非常重要。所以我是最早將此識別為北極星問題的研究人員之一。
但發(fā)生的事情是,作為一名人工智能的學(xué)生,一名人工智能的研究人員,我一直在研究各種數(shù)學(xué)模型,包括神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò),包括許多許多模型。存在一個獨(dú)特的痛點(diǎn),那就是這些模型沒有可供訓(xùn)練的數(shù)據(jù)。作為一個領(lǐng)域,我們?nèi)绱藢W⒂谶@些模型,但我突然意識到,人類學(xué)習(xí)以及進(jìn)化實(shí)際上是一個大數(shù)據(jù)學(xué)習(xí)過程。人類通過大量的經(jīng)驗(yàn)來學(xué)習(xí),不斷地學(xué)習(xí),而進(jìn)化實(shí)際上是一個大數(shù)據(jù)學(xué)習(xí)過程。如果你著眼于時間,動物們在體驗(yàn)世界的過程中進(jìn)化。所以 我的學(xué)生和我推測,要使人工智能栩栩如生,一個非常關(guān)鍵但被忽視的要素就是大數(shù)據(jù)。
然后我們在2006年、2007年開始了ImageDap項(xiàng)目。我們雄心勃勃。我們想獲取整個互聯(lián)網(wǎng)上關(guān)于物體的圖像數(shù)據(jù)。現(xiàn)在,誠然,當(dāng)時的互聯(lián)網(wǎng)比現(xiàn)在小得多。所以我覺得這個雄心壯志至少不算太瘋狂。現(xiàn)在,認(rèn)為幾個研究生和一個教授就能做到這一點(diǎn),完全是妄想。
Lenny: 但我們就是這么做的。
李飛飛: 我們需要用盡可能多的關(guān)于物體圖像的信息來訓(xùn)練機(jī)器。但是物體非常非常難以學(xué)習(xí)。單個物體可以在圖像上顯示出無限的可能性。為了用成千上萬的物體、概念來訓(xùn)練計(jì)算機(jī),你真的需要向它展示數(shù)百萬個例子。我們非常仔細(xì)地從互聯(lián)網(wǎng)上整理了1500萬張圖創(chuàng)建了一個包含22000個概念的分類體系,借鑒了其他研究人員的工作,比如語言學(xué)家在WordNet上的工作,這是一種特殊的詞典編纂方式。我們將這些整合到ImageNet中,并將其開源給研究社區(qū)。我們舉辦了一年一度的ImageNet挑戰(zhàn)賽,以鼓勵所有人參與其中。我們繼續(xù)進(jìn)行自己的研究。
但2012年是很多人認(rèn)為的深度學(xué)習(xí)開端或現(xiàn)代人工智能誕生之年,因?yàn)橐蝗河山芊颉ば令D教授領(lǐng)導(dǎo)的多倫多研究人員,參與了ImageNet挑戰(zhàn)賽,使用了ImageNet大數(shù)據(jù)和MVDia的兩塊GPU,成功創(chuàng)建了第一個神經(jīng)網(wǎng)絡(luò)算法,該算法可以,它并沒有從根本上,它并沒有完全解決,但在解決物體識別問題上取得了巨大進(jìn)展。而這三者的結(jié)合,即技術(shù)、大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)和GPU,是現(xiàn)代人工智能的黃金配方。快進(jìn)到人工智能的公共時刻,也就是ChatGPT時刻,如果你看看將ChatGPT帶到世界上的成分,從技術(shù)上講,它仍然使用了這三種成分。現(xiàn)在是互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù),主要是文本,比2012年復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)架構(gòu),但它仍然是神經(jīng)網(wǎng)絡(luò),以及更多的GPU,但它仍然是GPU。因此,這三種成分仍然是現(xiàn)代人工智能的核心。太不可思議了。
Lenny: 我以前從未聽過完整的版本。我喜歡最初是兩個GPU。我喜歡這樣。是的。現(xiàn)在是,我不知道,成千上萬個,對吧,數(shù)量級上更強(qiáng)大。是的。那兩個GPU只是買來的,它們就像游戲GPU。他們只是去了像游戲之星一樣的地方,對吧,人們用它來玩游戲。正如你所說,這在很大程度上仍然是模型變得更智能的方式。世界上目前發(fā)展最快的一些公司,我基本上都在播客中采訪過,比如Mercor、Surge和Scale。他們就這樣做,他們持續(xù)為實(shí)驗(yàn)室這樣做,只是給他們提供越來越多的他們最感興趣的事物的標(biāo)簽數(shù)據(jù)。
李飛飛: 我記得Alex Wong在Scale早期的時候。我可能還保留著他創(chuàng)辦Scale時的郵件。他,他非常友善。他一直給我發(fā)郵件,說ImageNet如何啟發(fā)了Scale。我很高興看到這一點(diǎn)。
Lenny: 我從您剛才分享的內(nèi)容中獲得的另一個最喜歡的收獲是,這正是高能動性的一個例子,就是去做事。這在推特上有點(diǎn)像一個梗。就是你可以做事情。你好的,這就是。可能有必要推動人工智能發(fā)展。那時它被稱為機(jī)器學(xué)習(xí),那是大多數(shù)人使用的術(shù)語嗎?
李飛飛: 我認(rèn)為可以互換使用。確實(shí)如此。比如,我記得那些公司,那些科技公司。我不打算點(diǎn)名,但我記得在早期的一次對話中,大概是2015年中到2016年中。一些科技公司避免使用“人工智能”這個詞,因?yàn)樗麄儾淮_定“人工智能”是否是個貶義詞。我記得我當(dāng)時實(shí)際上是在鼓勵大家使用“人工智能”這個詞,因?yàn)閷ξ襾碚f,這是人類在追求科學(xué)和技術(shù)方面提出的最勇敢的問題之一。我為這個術(shù)語感到非常自豪。但是,一開始,有些人不確定。
Lenny: 大概是哪一年,人工智能是個貶義詞?
李飛飛: 2016年。我認(rèn)為那是,不到10年前。那就是改變。就像有些人開始稱之為人工智能。但我認(rèn)為如果你看看硅谷的科技公司,如果你追溯他們的營銷術(shù)語,我認(rèn)為2017年左右是公司開始稱自己為人工智能公司的開端。
Lenny: 太不可思議了。世界變化如此之快。是的。現(xiàn)在你不能不稱自己為一家人工智能公司。
李飛飛: 我知道。
Lenny: 僅僅九年左右之后。是啊。天啊。好的。關(guān)于這段歷史,早期的歷史,在你看來,在討論事物發(fā)展方向和你正在做的工作之前,還有什么人們不知道但你認(rèn)為重要的嗎?
李飛飛: 我認(rèn)為就像所有的歷史一樣,我清楚地意識到我被認(rèn)為是歷史的一部分,但也有很多的英雄和研究人員。我們說的是幾代研究人員。他們,在我自己的世界里,有很多激勵我的人,我在我的書中提到過。但我確實(shí)覺得我們的文化,尤其是硅谷,傾向于將成就歸功于某一個人,我認(rèn)為這有價值。但這只是為了被記住。人工智能是一個已經(jīng)有70年歷史的領(lǐng)域,我們已經(jīng)經(jīng)歷了很多代,沒有人,沒有人能夠獨(dú)自到達(dá)這里。
AI的現(xiàn)狀與下一個前沿:世界模型
Lenny: 好的。那么讓我問你這個問題。感覺我們總是站在通用人工智能(AGI)的懸崖邊上,這是一個模糊的術(shù)語,人們到處亂用,好像通用人工智能即將到來。它將接管一切。怎么樣,你在服用什么?你認(rèn)為我們距離通用人工智能還有多遠(yuǎn)?你認(rèn)為我們能按照目前的軌跡到達(dá)那里嗎?你認(rèn)為我們需要更多的突破嗎?你認(rèn)為目前的方法能讓我們到達(dá)那里嗎?
李飛飛: Lenny,這是一個非常有趣的術(shù)語。我不知道是否有人定義過通用人工智能。有很多不同的定義,包括,機(jī)器的某種超能力,一直到機(jī)器可以在社會中成為經(jīng)濟(jì)上可行的主體。換句話說,掙工資來生活。這是通用人工智能的定義嗎?作為一名科學(xué)家,我非常嚴(yán)肅地對待科學(xué),我進(jìn)入這個領(lǐng)域是因?yàn)槲沂艿搅诉@個大膽問題的啟發(fā):機(jī)器能否以人類的方式思考和做事。對我來說,這始終是人工智能的北極星。從這個角度來看,我不知道人工智能和通用人工智能之間有什么區(qū)別。我認(rèn)為我們在實(shí)現(xiàn)目標(biāo)的部分方面做得很好,包括對話式人工智能。但我不認(rèn)為我們已經(jīng)完全攻克了人工智能的所有目標(biāo)。我想我們的先賢,艾倫·圖靈,我在想如果艾倫·圖靈今天還在世,你讓他對比人工智能和通用人工智能,蒂姆,我只會聳聳肩說,我在 1940 年代就問過同樣的問題。所以,我不想陷入深究人工智能與通用人工智能定義的兔子洞。我覺得通用人工智能更多的是一個營銷術(shù)語,而不是一個科學(xué)術(shù)語。作為一名科學(xué)家和技術(shù)專家,人工智能是我的北極星,是我這個領(lǐng)域的北極星。我很高興人們用他們想用的任何名字來稱呼它。
Lenny: 那我換個方式問吧。就像你描述的那樣,有一些組件,從 ImageNet 和 AlexNet 一路發(fā)展到今天,基本上是 GPU、數(shù)據(jù)、標(biāo)記數(shù)據(jù),就像模型的算法一樣。此外, former 模型感覺像是這個軌跡中的重要一步。你是否覺得這些相同的組件能讓我們達(dá)到,我也不知道,比現(xiàn)在聰明 10 倍的模型,某種對整個世界來說具有改變生命意義的東西?你認(rèn)為我們在哪些方面需要更多的突破?我知道我們要討論世界模型,我認(rèn)為這是其中的一個組成部分,但你是否認(rèn)為還有其他的東西,比如,這是一個瓶頸,或者,好吧,這會帶領(lǐng)我們前進(jìn),只需要更多數(shù)據(jù)、更多算力、更多GPU。
李飛飛: 不,我絕對認(rèn)為我們需要更多的創(chuàng)新。我認(rèn)為更多數(shù)據(jù)、更多GPU和更大規(guī)模的當(dāng)前模型架構(gòu)的擴(kuò)展定律,在這方面仍有大量工作要做。但我絕對認(rèn)為我們需要更多創(chuàng)新。在人類歷史上,沒有一個深層的科學(xué)學(xué)科到達(dá)某個階段后會說,我們完成了,我們停止創(chuàng)新了。而人工智能,如果不是人類文明中最年輕的科學(xué)技術(shù)學(xué)科之一,也是其中之一,我們?nèi)匀恢挥|及了表面。
例如,就像我說的那樣,我們要過渡到世界模型。今天,你拿一個模型,讓它運(yùn)行一段包含幾個辦公室房間的視頻,然后要求模型數(shù)一下椅子的數(shù)量。這是幼兒就能做到的事情。或者也許是一個小學(xué)生可以做到的,而人工智能卻做不到,所以今天的人工智能有很多事情都做不到。那么更不用說思考像艾薩克·牛頓這樣的人,是如何觀察天體的運(yùn)動,并推導(dǎo)出能夠支配所有物體運(yùn)動的方程或方程組的。那種程度的創(chuàng)造力、推斷、抽象,我們今天沒有辦法讓AI做到。
接下來讓我們看看情商。如果你看到一個學(xué)生來到老師的辦公室,就動機(jī)、熱情、學(xué)習(xí)什么、困擾你的問題是什么進(jìn)行對話。即使今天的對話機(jī)器人功能強(qiáng)大,但在那種對話中,你無法從今天的AI中獲得那種程度的情感認(rèn)知智能。所以我們有很多可以做得更好的地方。我不認(rèn)為我們的創(chuàng)新已經(jīng)結(jié)束。
Lenny: 德馬斯最近接受了DeepMinds/Google的一次非常有趣的采訪,有人問他們,你怎么看?我們離AI還有多遠(yuǎn)?它看起來會是什么樣?你沒看穿那里?我們有一種非常有趣的方法來處理這個問題:如果我們把最先進(jìn)的模型在20世紀(jì)末之前的所有信息都給它,看看它是否能提出愛因斯坦的所有突破。到目前為止,我們從未接近那個目標(biāo)。不,我們沒有。
李飛飛: 事實(shí)上,情況更糟。讓我們把所有的數(shù)據(jù)都給人工智能,包括牛頓沒有的天體的現(xiàn)代儀器數(shù)據(jù)。然后把它交給人工智能,讓它創(chuàng)建一套17世紀(jì)關(guān)于物體運(yùn)動規(guī)律的方程。今天的人工智能做不到這一點(diǎn)。
Lenny: 好的,我們還差得很遠(yuǎn),這就是我所說的。好的,那么讓我們來談?wù)勈澜缒P汀ξ襾碚f,這只是你領(lǐng)先于人們最終所處位置的另一個非常棒的例子。所以你很早就意識到,我們需要大量干凈的數(shù)據(jù)供人工智能和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。你已經(jīng)談?wù)撌澜缒P瓦@個想法很久了。你創(chuàng)辦了一家公司來構(gòu)建它。本質(zhì)上,存在語言模型。這是不同的東西。這是一個世界模型。我們將討論那是什么。現(xiàn)在,正如我為這次談話做準(zhǔn)備時,埃隆也在談?wù)撌澜缒P汀|S仁勛也在談?wù)撌澜缒P汀N抑拦雀枰苍谘芯窟@些東西。你已經(jīng)從事這項(xiàng)工作很長時間了。而且你實(shí)際上剛剛推出了一些東西,我們會在這個播客播出之前討論。談?wù)勈裁词鞘澜缒P停繛槭裁此绱酥匾?/p>
李飛飛: 我很高興看到越來越多的人在談?wù)摚乙恢痹谒伎既绾握嬲赝苿尤斯ぶ悄艿陌l(fā)展,我的一生都是如此,過去幾年,從研究領(lǐng)域涌現(xiàn)出來的大型語言模型,以及OpenAI等等,即使對于像我這樣的研究人員來說,也極具啟發(fā)性。我記得GPT2發(fā)布的時候,那大概是2020年末吧。我曾是,現(xiàn)在仍然是,斯坦福人類中心人工智能研究所的全職聯(lián)合主任。我記得當(dāng)時,公眾還沒有意識到大型語言模型的力量,但作為研究人員,我們已經(jīng)看到了,我們看到了未來。我和我的自然語言處理同事,比如珀西·梁和克里斯·巴丁,進(jìn)行了相當(dāng)長時間的對話。我們討論了這項(xiàng)技術(shù)將會有多么關(guān)鍵。斯坦福人工智能研究所,人類中心人工智能研究所(HIAI),是第一個建立關(guān)于基礎(chǔ)模型的完整研究中心的機(jī)構(gòu)。我們,珀西·梁和許多研究人員發(fā)表了第一篇關(guān)于基礎(chǔ)模型的學(xué)術(shù)論文。
因此,這對我來說非常鼓舞人心。當(dāng)然,我來自視覺智能領(lǐng)域,我一直在思考,我們可以在語言之外推進(jìn)很多東西,因?yàn)槿祟愐呀?jīng)利用我們的空間智能和對世界的理解來做了很多事情,而這些事情超越了語言。想想一個非常混亂的急救現(xiàn)場,無論是火災(zāi)、交通事故還是自然災(zāi)害。如果你沉浸在現(xiàn)場,想想人們?nèi)绾谓M織自己去拯救人們,阻止進(jìn)一步的災(zāi)難,撲滅火災(zāi),很多都是動作,是對物體、世界、人類和情境意識的自發(fā)理解。語言是其中的一部分,但在很多情況下,語言無法讓你撲滅火災(zāi)。那么,那是什么呢?我一直在思考很多,與此同時,我做了大量的機(jī)器人研究。我突然意識到,除了語言之外,連接額外智能的關(guān)鍵,以及連接具身人工智能(即機(jī)器人技術(shù)),連接視覺智能的關(guān)鍵,是對世界理解的空間智能。那就是,我想我是在2024年,我做了一個關(guān)于世界模型的空間智能的TED演講。我在2022年就開始構(gòu)思這個想法,基于我的機(jī)器人和計(jì)算機(jī)視覺研究。然后對我來說非常清楚的一件事是,我真的很想與最聰明的技術(shù)人員合作,并盡可能快地將這項(xiàng)技術(shù)變?yōu)楝F(xiàn)實(shí)。這就是我們成立這家名為World Labs的公司的原因。你可以看到“世界”這個詞在我們公司的名稱中,因?yàn)槲覀兎浅O嘈攀澜缃:涂臻g智能。
Marble發(fā)布:人人皆可創(chuàng)造的世界
Len-ny: 人們已經(jīng)非常習(xí)慣于聊天機(jī)器人,那是一個大型語言模型。理解世界模型的一個簡單方法是,你基本上描述一個場景,它會生成一個可以無限探索的世界。我們會鏈接到你發(fā)布的東西,我們稍后會討論,但這只是理解它的一種簡單方式嗎?
李飛飛: 那是其中的一部分,Lenny。我認(rèn)為理解世界模型的一個簡單方法是。這個模型可以讓任何人在他們的腦海中通過提示(無論是圖像還是句子)來創(chuàng)造任何世界,并且能夠在這個世界中互動,無論是瀏覽和行走,還是拾取物體,還是改變、改變事物,以及在這個世界中進(jìn)行推理。例如,如果。
Lenny: 如果消費(fèi)的人,如果消費(fèi)這個世界模型輸出的代理是一個機(jī)器人,它應(yīng)該能夠規(guī)劃它的路徑,并幫助你,例如,整理廚房。
李飛飛: 所以世界模型是你可以用來推理、交互和創(chuàng)造世界的基礎(chǔ)。
Lenny: 很好。所以機(jī)器人感覺像是人工智能研究人員的下一個重要焦點(diǎn),以及對世界的影響。而你在這里所說的是,這是使機(jī)器人真正在現(xiàn)實(shí)世界中工作的關(guān)鍵缺失部分,即理解世界如何運(yùn)作。
李飛飛: 是的。首先,我確實(shí)認(rèn)為令人興奮的不僅僅是機(jī)器人。但我同意你剛才所說的一切。我認(rèn)為世界建模和空間智能是一個關(guān)鍵的缺失部分。的具身人工智能。我也認(rèn)為我們不要低估人類是具身智能體,而人類可以通過人工智能的智能得到增強(qiáng)。就像今天一樣,人類是語言動物,但當(dāng)人工智能幫助我們執(zhí)行語言任務(wù)(包括軟件工程)時,我們會在很大程度上得到增強(qiáng)。我認(rèn)為我們不應(yīng)該低估,或者也許是,我們往往不談?wù)撊祟愖鳛榫呱碇悄荏w,實(shí)際上可以從世界模型和空間智能模型中受益,就像機(jī)器人一樣。
Lenny: 這里的重要突破是機(jī)器人,如果一切順利,這將是一件大事。我設(shè)想我們每個人都會有機(jī)器人為我們做很多事情,它們會幫助我們應(yīng)對災(zāi)難。當(dāng)然,游戲就是一個非常酷的例子,就像你可以憑空創(chuàng)造出無限可玩的游戲。然后,創(chuàng)造力感覺就像是樂趣,享受樂趣,發(fā)揮創(chuàng)造力,構(gòu)思出神奇的、狂野的全新世界和環(huán)境。
李飛飛: 還有設(shè)計(jì),人類設(shè)計(jì)從機(jī)器到建筑再到住宅,以及科學(xué)發(fā)現(xiàn),這里面有很多,我喜歡用發(fā)現(xiàn)DNA結(jié)構(gòu)的例子。如果你看一下DNA發(fā)現(xiàn)歷史上最重要的部分之一,那就是羅莎琳德·富蘭克林拍攝的X射線衍射照片。那是一張平面的二維照片,照片上的結(jié)構(gòu)看起來像一個帶有衍射的十字。你可以,你可以用谷歌搜索那些照片。但是通過那張二維的平面照片,人類,特別是兩位重要的人物,詹姆斯·沃森和弗朗斯·克里克,除了其他信息外,還能夠在三維空間中進(jìn)行推理,并推導(dǎo)出了DNA高度三維的雙螺旋結(jié)構(gòu)。那個結(jié)構(gòu)不可能是二維的。你不能用二維的思維來推導(dǎo)出那個結(jié)構(gòu)。你必須用三維空間思維,運(yùn)用人類的空間智能。所以即使在科學(xué)發(fā)現(xiàn)中,空間智能或人工智能輔助的空間智能也至關(guān)重要。
Lenny: 這是一個很好的例子,我認(rèn)為克里斯·迪克森說過這樣一句話:下一個偉大的事物最初會讓人覺得像個玩具。當(dāng)ChatGPT剛問世時,我記得薩爾·莫姆只是發(fā)推說,這是一個我們正在玩的很酷的東西,看看吧。現(xiàn)在它是歷史上增長最快的產(chǎn)品,改變了世界。通常那些看起來只是“好吧,這很酷,玩起來很有趣”的東西,最終會極大地改變世界。
李飛飛: 是的。我們認(rèn)識很多年了。但是,目前他們是 World Labs 的投資者。太棒了。
機(jī)器人的挑戰(zhàn)與“苦澀的教訓(xùn)”
Lenny: 好的。我問他我應(yīng)該問你什么。他建議問你,為什么苦澀的教訓(xùn)本身不太可能適用于機(jī)器人?首先,請解釋一下人工智能歷史上苦澀的教訓(xùn)是什么,以及為什么它不能讓我們達(dá)到我們希望機(jī)器人達(dá)到的目標(biāo)?
李飛飛: 首先,有很多苦澀的教訓(xùn),但大家所說的苦澀教訓(xùn)是指理查德·薩頓撰寫的一篇論文,他獲得了圖靈獎。最近,他在做大量的強(qiáng)化學(xué)習(xí)。理查德說過,如果你回顧歷史,特別是人工智能的算法發(fā)展史,你會發(fā)現(xiàn),擁有海量數(shù)據(jù)的簡單模型最終總是會勝出,而不是擁有較少數(shù)據(jù)的更復(fù)雜模型。實(shí)際上,這篇論文是在ImageNet出現(xiàn)幾年后發(fā)表的。對我來說,這并不是苦澀的。這是一個甜蜜的教訓(xùn)。這就是我創(chuàng)建ImageNet的原因,因?yàn)槲蚁嘈糯髷?shù)據(jù)發(fā)揮著重要作用。
那么,為什么苦澀的教訓(xùn)只能在機(jī)器人技術(shù)中起作用呢?首先,我認(rèn)為我們需要肯定我們今天所取得的成就。機(jī)器人技術(shù)還處于實(shí)驗(yàn)的早期階段。這項(xiàng)研究遠(yuǎn)不如……比如,語言模型那樣成熟。很多人仍在試驗(yàn)不同的算法,其中一些算法由大數(shù)據(jù)驅(qū)動。所以我確實(shí)認(rèn)為大數(shù)據(jù)將繼續(xù)在機(jī)器人技術(shù)中發(fā)揮作用。
但是,機(jī)器人技術(shù)的難點(diǎn)是什么?有幾個方面。
Lenny: 一是獲取數(shù)據(jù)更難。
李飛飛: 獲取數(shù)據(jù)要困難得多。你可能會說,好吧,有網(wǎng)絡(luò)數(shù)據(jù)。這就是最新的機(jī)器人研究使用網(wǎng)絡(luò)視頻的地方。我認(rèn)為網(wǎng)絡(luò)視頻確實(shí)發(fā)揮了作用。但是如果你想想是什么讓語言模型變得有價值,作為一個從事計(jì)算機(jī)視覺、空間智能和機(jī)器人技術(shù)的人,我非常嫉妒我在語言領(lǐng)域的同事,因?yàn)樗麄儞碛幸粋€完美的設(shè)置,他們的訓(xùn)練數(shù)據(jù)是單詞,最終是標(biāo)記,然后他們產(chǎn)生一個輸出文字的模型。所以你在你希望獲得的東西(我們稱之為目標(biāo)函數(shù))和你訓(xùn)練數(shù)據(jù)的樣子之間,有一個完美的對齊。
但機(jī)器人技術(shù)是不同的。即使是空間智能也是不同的。你希望從機(jī)器人那里獲得行動。
Lenny: 但你的訓(xùn)練數(shù)據(jù)缺乏在3D世界中的行動。
李飛飛: 這正是機(jī)器人必須做的,在3D世界中的行動。所以你必須找到不同的方法來把一個,他們稱之為方枘圓鑿的東西硬塞進(jìn)去。我們擁有的是大量的網(wǎng)絡(luò)視頻?那么我們就不得不開始討論添加補(bǔ)充數(shù)據(jù),例如遠(yuǎn)程操控?cái)?shù)據(jù)或合成數(shù)據(jù),以便機(jī)器人通過大量數(shù)據(jù)的“苦澀教訓(xùn)”這一假設(shè)進(jìn)行訓(xùn)練。我認(rèn)為仍然有希望,因?yàn)榧词刮覀冊谑澜缃V兴龅墓ぷ鳎矊⒄嬲尫糯罅看祟愋畔ⅰ榱藱C(jī)器人。但我認(rèn)為我們必須小心,因?yàn)槲覀冋幱谠缙陔A段,而“苦澀教訓(xùn)”仍有待檢驗(yàn),因?yàn)槲覀冞€沒有完全弄清楚數(shù)據(jù)。
機(jī)器人“苦澀教訓(xùn)”的另一方面,我認(rèn)為我們應(yīng)該非常現(xiàn)實(shí)地看待,再次強(qiáng)調(diào),與語言模型甚至空間模型相比,機(jī)器人是物理系統(tǒng)。因此,機(jī)器人更接近于自動駕駛汽車,而不是大型語言模型。這一點(diǎn)非常重要。這意味著,為了讓機(jī)器人工作,我們不僅需要大腦,還需要物理身體,還需要應(yīng)用場景。如果你看看自動駕駛汽車的歷史,我的同事塞巴斯蒂安·特龍(Sebastian Thrun),我的同事塞巴斯蒂安·特龍,在2006年或2005年帶著斯坦福的汽車贏得了第一屆DARPA挑戰(zhàn)賽。自那輛自動駕駛汽車原型問世以來已經(jīng)20年了。
Lenny: 能夠在內(nèi)華達(dá)州的沙漠中行駛130英里,直到今天的Waymo,以及在舊金山的街道上行駛,而且我們還沒有完成,還有很多。
李飛飛: 所以這是一個20年的旅程,而且自動駕駛汽車是簡單得多的機(jī)器人。它們只是在二維表面上運(yùn)行的金屬盒子,目標(biāo)是不接觸任何東西。機(jī)器人是在三維世界中運(yùn)行的三維物體,目標(biāo)是接觸事物。所以這段旅程將會有很多方面和要素。當(dāng)然,有人可能會說,早期的自動駕駛汽車算法是在深度學(xué)習(xí)時代之前。所以深度學(xué)習(xí)正在加速大腦的運(yùn)轉(zhuǎn)。我認(rèn)為這是真的。這就是我從事機(jī)器人行業(yè)的原因。這就是我從事空間智能領(lǐng)域的原因,我對此感到興奮。但與此同時,汽車工業(yè)已經(jīng)非常成熟。而產(chǎn)品化也涉及到成熟的用例、供應(yīng)鏈和硬件。所以現(xiàn)在是研究這些問題非常有趣的時刻。但確實(shí),本說的是對的。我們可能仍然會遭受一些痛苦的教訓(xùn)。
Lenny: 在做這項(xiàng)工作時,你是否會對大腦的工作方式感到敬畏,它能夠?yàn)槲覀兺瓿蛇@一切,僅僅是其復(fù)雜性,僅僅是為了讓機(jī)器能夠四處走動而不撞到東西和摔倒?這是否讓你更加尊重我們已經(jīng)擁有的東西?
李飛飛: 完全是。我們的運(yùn)行功率約為20瓦。這比我現(xiàn)在房間里的任何燈泡都暗。然而,我們卻能做這么多。所以實(shí)際上,我認(rèn)為,我越是在人工智能領(lǐng)域工作,我就越尊重人類。
Marble的誕生與應(yīng)用
Lenny: 讓我們來談?wù)勀鷦倓偼瞥龅倪@款產(chǎn)品,它叫做Marble,一個非常可愛的名字。談?wù)勥@是什么,為什么這很重要。我一直在試用它。簡直令人難以置信。我們會提供鏈接,供大家查看。
李飛飛: 什么是Marvel?我非常興奮。所以首先,Marble是World Labs推出的首批問題之一。World Labs已經(jīng)推出。World Labs是一家基礎(chǔ)前沿模型公司。我們由四位具有深厚技術(shù)背景的聯(lián)合創(chuàng)始人資助。我的聯(lián)合創(chuàng)始人是賈斯汀·約翰遜、克里斯托夫·拉斯納和本·米爾登霍爾。我們都來自人工智能、計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺的研究領(lǐng)域。我們相信,空間智能和世界建模與語言模型同樣重要,甚至更為重要,并且可以作為語言模型的補(bǔ)充。因此,我們希望抓住這個機(jī)會,創(chuàng)建一個深度技術(shù)研究實(shí)驗(yàn)室,將前沿模型與產(chǎn)品聯(lián)系起來。
所以Marble是一款基于我們前沿模型構(gòu)建的應(yīng)用程序。我們花了一年多的時間來構(gòu)建世界上第一個可以輸出真正3D世界的生成模型。這是一個非常非常困難的問題。這是一個非常艱難的過程。我們擁有一支由杰出技術(shù)專家組成的創(chuàng)始團(tuán)隊(duì),他們來自非常優(yōu)秀的團(tuán)隊(duì)。大約一兩個月前,我們第一次看到可以用一個句子和一個圖像以及多個圖像來提示,并創(chuàng)建我們可以導(dǎo)航的世界。如果你把它放到谷歌上,我們有選項(xiàng)讓你這么做,你甚至可以四處走動,所以,盡管我們已經(jīng)為此構(gòu)建了相當(dāng)長一段時間。它仍然令人嘆為觀止。
我們想把它送到需要它的人手中。
Lenny: 然后我們知道,如此多的創(chuàng)造者、設(shè)計(jì)師、思考機(jī)器人模擬的人、思考可導(dǎo)航、可互動、沉浸式世界的不同用例的人、游戲開發(fā)者會發(fā)現(xiàn)這很有用。
李飛飛: 所以我們會發(fā)現(xiàn)這很有用。所以我們開發(fā)了Marble作為第一步。這,這再次說明,現(xiàn)在還非常早期。但它是世界上第一個這樣做的模型。而且它是世界上第一個允許人們直接提示的產(chǎn)品。我們稱之為提示兩個世界。
Lenny: 額,我一直在玩它,簡直太瘋狂了。就像你可以擁有一個小郡世界,在那里你可以無限地在中土世界漫步,基本上就是這樣。而且那里還沒有,還沒有人。但這太瘋狂了。你可以去任何地方。還有像反烏托邦世界。我只是在看所有這些例子。是的。實(shí)際上,我最喜歡的部分是,我不知道,我不知道這算是一個功能還是一個漏洞。你可以看到世界上的點(diǎn),在它實(shí)際渲染出所有紋理之前。而且我就是喜歡讓你瞥見這個模型正在發(fā)生的事情。
李飛飛: 基本上,聽到這些真是太酷了。是的。因?yàn)檫@就是我作為研究員正在學(xué)習(xí)的地方,因?yàn)橐龑?dǎo)你進(jìn)入世界的那些點(diǎn)是一個有意的特征可視化。它不是模型的一部分。實(shí)際上是模型直接生成了這個世界。但我們試圖找到一種引導(dǎo)人們進(jìn)入這個世界的方法。許多工程師研究了不同的版本,但我們最終確定了點(diǎn)。很多人,你不是唯一一個,告訴我們這個體驗(yàn)是多么令人愉快。對我們來說,聽到這個消息真的很令人滿意,這個有意的可視化特征不僅僅是大型硬核模型,實(shí)際上讓我們的用戶感到高興。
Lenny: 哇,所以你添加它是為了讓人們更容易理解正在發(fā)生的事情,變得更加愉快。哇,這太搞笑了。這讓我想到了大型語言模型,雖然方式不同,但它們會談?wù)撟约旱南敕ê驼谧龅氖虑椤?/p>
李飛飛: 確實(shí)是。
Lenny: 這也讓我想到了黑客帝國。就像完全是黑客帝國的體驗(yàn)。我不知道這是否是你的靈感來源。
李飛飛: 就像我說的,有很多工程師參與了那個項(xiàng)目。這可能是他們的靈感。
Lenny: 它就在那里。它在他們的潛意識里。是的。好的,所以為了那些可能想和我們一起玩,或者使用它的人。比如,現(xiàn)在人們可以開始使用的有哪些應(yīng)用程序?你們這次發(fā)布的目標(biāo)是什么?
李飛飛: 是的。所以我們確實(shí)認(rèn)為世界建模是非常普遍適用的,但我們已經(jīng)看到了一些非常令人興奮的用例,比如電影的虛擬制作,因?yàn)樗麄冃枰軌蚺c攝像機(jī)對齊的3D世界。這樣當(dāng)演員在上面表演時,他們就可以,他們可以很好地定位攝像機(jī)并拍攝片段。我們已經(jīng)看到了令人難以置信的用途。事實(shí)上,我不知道你是否看過我們展示Marble的發(fā)布視頻。它是由一家虛擬制作公司制作的。我們與索尼合作。他們使用Marble場景來拍攝這些視頻。所以我們與那些技術(shù)藝術(shù)家和導(dǎo)演合作,他們說這已經(jīng)將我們的制作時間縮短了40倍。
事實(shí)上,它一定是……40倍。事實(shí)上,它必須如此,因?yàn)槲覀冎挥幸粋€月的時間來完成這個項(xiàng)目。而且有...如此多的東西他們試圖拍攝。因此,使用Marble確實(shí)極大地加速了視覺特效和電影的虛擬制作。這是一個用例。
我們已經(jīng)看到我們的用戶正在把,正在采用我們的Marble場景并獲取網(wǎng)格導(dǎo)出,并將其用于游戲,無論是VR游戲還是游戲,只是他們開發(fā)的一些有趣的游戲。我們曾經(jīng)展示過一個機(jī)器人模擬的例子,因?yàn)槲疫^去,我仍然是一名從事機(jī)器人訓(xùn)練的研究員,最大的痛點(diǎn)之一是創(chuàng)建用于訓(xùn)練機(jī)器人的合成數(shù)據(jù)。這些合成數(shù)據(jù)需要非常多樣化。它們需要來自不同的環(huán)境,并具有不同的物體來操作,而實(shí)現(xiàn)這一目標(biāo)的一個途徑是讓計(jì)算機(jī)進(jìn)行模擬。
Lenny: 否則,人類就必須,為機(jī)器人構(gòu)建每一個單獨(dú)的資產(chǎn)。
李飛飛: 那樣只會花費(fèi)更長的時間。因此,我們已經(jīng)有研究人員主動聯(lián)系,希望使用Marble來創(chuàng)建這些合成環(huán)境。在用戶希望如何使用Marble方面,我們也收到了意想不到的反饋。例如,一個心理學(xué)家團(tuán)隊(duì)打電話給我們,希望使用Marble來進(jìn)行心理學(xué)研究。事實(shí)證明,他們研究的一些精神病患者需要了解他們的大腦如何對不同特征的不同沉浸式事物做出反應(yīng)。例如,混亂的東西或干凈的東西,或者任何你能想到的東西。研究人員很難獲得這些沉浸式場景,而且創(chuàng)建這些場景會花費(fèi)他們太長的時間和太多的預(yù)算。而Marble幾乎是一種即時的方式,可以將如此多的實(shí)驗(yàn)環(huán)境送到他們手中。因此,我們現(xiàn)在看到了多種用例,但視覺特效、游戲開發(fā)者、模擬開發(fā)者以及設(shè)計(jì)師都非常興奮。
Lenny: 這很符合人工智能領(lǐng)域的發(fā)展規(guī)律。我在播客中邀請過其他人工智能領(lǐng)域的領(lǐng)導(dǎo)者。而且總是這樣,盡早地把東西發(fā)布出去,以便發(fā)現(xiàn)主要的用例在哪里。ChatGPTBT的負(fù)責(zé)人告訴我,當(dāng)他們第一次推出ChatGPT時,他只是在瀏覽TikTok,看看人們?nèi)绾问褂盟约八麄兌荚谡務(wù)撔┦裁础_@說服了他們要傾斜資源,幫助他們了解人們實(shí)際上想如何使用它。我喜歡這最后一個用例,比如用于治療。我只是在想象,比如恐高癥,人們看到,處理恐高癥或蛇或蜘蛛,這……太棒了。
李飛-飛: 昨晚我的一個朋友真的打電話給我,談?wù)撍指叩氖虑椋栁沂欠駪?yīng)該使用大理石。你直接想到那里真是太棒了。
Lenny: 那是,因?yàn)槲艺谙胂笏械模热纾┞动煼ǖ臇|西。比如,這對于暴露療法來說可能非常好。太酷了。好的,那么我問一下,我本應(yīng)該早點(diǎn)問你的,但我認(rèn)為會有一個問題,會有一個問題是,這與V-O-3和其他視頻生成模型有何不同?我很清楚,但我認(rèn)為解釋一下這與人們見過的所有視頻AI工具的不同之處可能會有幫助。
李飛飛: Warnap的論點(diǎn)是,空間智能從根本上來說非常重要,而空間智能不僅僅是關(guān)于視頻。事實(shí)上,世界不是被動地觀看流逝的視頻,我很喜歡柏拉圖用洞穴寓言來描述視覺。他說,想象一個囚犯被綁在椅子上,不是很人道,但在一個洞穴里,看著他面前一場完整的現(xiàn)場戲劇。但實(shí)際的現(xiàn)場戲劇就在他面前,但實(shí)際的現(xiàn)場戲劇,演員們是演員。在他的背后。它只是被照亮,這樣動作的投影就在洞穴的墻壁上。然后這個囚犯的目標(biāo)和任務(wù)就是弄清楚發(fā)生了什么。
Lenny: 這是一個非常極端的例子,但它確實(shí)表明,它描述了視覺的意義在于理解三維世界或四維世界。
李飛飛: 從二維中理解。所以對我來說,空間智能比僅僅創(chuàng)造那個扁平的二維世界更深刻。對我來說,空間智能是創(chuàng)造、推理、互動、理解深刻的空間世界的能力,無論是二維、三維還是四維,包括動態(tài)和所有這些。所以世界實(shí)驗(yàn)室專注于此。當(dāng)然,創(chuàng)造視頻本身的能力也可能是其中的一部分。事實(shí)上,就在幾周前,我們推出了世界上第一個可在單個H-100 GPU上實(shí)時演示的實(shí)時視頻生成。所以我們的部分技術(shù)包括這個。但Marble非常不同,因?yàn)槲覀冋娴南M麆?chuàng)作者、設(shè)計(jì)師、開發(fā)者能夠掌握一個可以為他們提供具有三維結(jié)構(gòu)的世界的模型,以便他們可以將其用于他們的工作。這就是為什么,這就是為什么Marble如此不同。
Lenny: 在我看來,這是一個,它是一個,它是一個可以做很多事情的平臺。正如你描述的,視頻就像是,這是一個非常有趣和酷炫的獨(dú)立視頻。然後你可以,就這樣,僅此而已。然後你繼續(xù)前進(jìn)。
李飛飛: 順便說一句,在Marble中,我們可以允許人們以視頻形式導(dǎo)出。所以你可以真的,就像你說的,你進(jìn)入一個世界,比方說這是一個霍比特人洞穴。你實(shí)際上可以,特別是作為創(chuàng)作者,你在導(dǎo)演的腦海中有一種非常具體的方式來移動相機(jī),對吧?然後你可以將其從Marble導(dǎo)出為視頻。
創(chuàng)始人的旅程與對人才的忠告
Lenny: 創(chuàng)建這樣的東西需要什麼?團(tuán)隊(duì)有多大?你用多少個GPU工作?有什麼可以分享的嗎?我不知道這裡面有多少是私密信息,但是創(chuàng)造像你在這裡發(fā)布的東西需要什麼?
李飛飛: 需要大量的腦力。所以我們只討論每個大腦20瓦。所以從這個角度來看,這是一個很小的數(shù)字,但實(shí)際上是令人難以置信的,那是5億年的進(jìn)化才賦予我們這些能力。我們現(xiàn)在有一個30人左右的團(tuán)隊(duì)。而且我們主要是研究人員或研究工程師。但我們也有設(shè)計(jì)師和產(chǎn)品人員。我們實(shí)際上真的相信,我們想要創(chuàng)建一個扎根于空間智能深層技術(shù)的公司。但我們實(shí)際上正在構(gòu)建系列產(chǎn)品。因此,我們整合了研發(fā)和產(chǎn)品化。當(dāng)然,我們使用了大量的GPU。那是一個技術(shù)團(tuán)隊(duì)。
Lenny: 那是技術(shù)團(tuán)隊(duì)。黃仁勛會很高興聽到這個消息。祝賀你們發(fā)布。我知道這是一個巨大的里程碑。我知道這花費(fèi)了大量的工作。所以我只想說,祝賀你和你的團(tuán)隊(duì)。讓我談?wù)勀愕膭?chuàng)始人歷程。所以你是這家公司的創(chuàng)始人。你開始了。多少年前?幾年前,兩三年之前?
李飛飛: 一年前。
Lenny: 好的。 18個月。
在你開始做這件事之前,有什么是你希望自己知道的,你希望可以悄悄告訴18個月前的飛飛的?
李飛飛: 我仍然希望我知道科技的未來。我認(rèn)為實(shí)際上這是我們的一個根本優(yōu)勢,即我們通常比大多數(shù)人更早地看到未來。但即便如此,伙計(jì),未知的事物和即將到來的事物是如此令人興奮和驚嘆。但我知道你問我這個問題的原因很大程度上是關(guān)于技術(shù)的未來。你可能更...聽著,我沒有在20歲時創(chuàng)辦一家如此規(guī)模的公司。我19歲時開了一家干洗店,但規(guī)模小了一點(diǎn)。
Lenny: 我們得談?wù)勀莻€。
李飛飛: 然后,我資助了谷歌云人工智能,然后我在斯坦福大學(xué)資助了一個研究所,但那些是不同的事情。我覺得作為一家磨礪之旅的創(chuàng)始人,我比20歲的創(chuàng)始人準(zhǔn)備得更充分,但我仍然,我很驚訝,我很驚訝,有時這讓我感到偏執(zhí),人工智能領(lǐng)域的競爭從模型、技術(shù)本身以及人才方面來說是多么激烈。而且,當(dāng)我創(chuàng)立公司時,我們沒有這些令人難以置信的故事,講述某些人才的成本有多高,你知道嗎?所以這些事情不斷地讓我感到驚訝,我必須對此保持高度警惕。
Lenny: 你所說的競爭,是對人才的競爭,是事情發(fā)展的速度。是的。是的。你提到了這一點(diǎn),我想回到這一點(diǎn),如果你回顧你的職業(yè)生涯,你會發(fā)現(xiàn)你身處所有人類聚集的主要場所,這些場所促成了當(dāng)今發(fā)生的許多突破。顯然,我們談?wù)摿薎mageNet,而且斯坦福大學(xué)的SAIL實(shí)驗(yàn)室也是許多工作發(fā)生的地方。谷歌云,許多突破也發(fā)生在那里。是什么把你帶到這些地方的?比如,對于那些希望在職業(yè)生涯中取得進(jìn)步,成為未來中心的人來說,把你從一個地方拉到另一個地方,把你拉到那些群體中的,是否存在一條貫穿始終的主線?這對人們來說可能會有所幫助。
李飛飛: Lenny,這實(shí)際上是一個很棒的問題,因?yàn)槲掖_實(shí)會思考它。而且,顯然,我們談到了好奇心和熱情把我?guī)У饺斯ぶ悄茴I(lǐng)域。這更像是一個科學(xué)的北極星,我并不在意人工智能是否會成為現(xiàn)實(shí)。這是其中一部分。但我最終如何選擇在特定的地方工作,包括創(chuàng)辦世界實(shí)驗(yàn)室,我想我很感激我自己。也許還要感謝我父母的基因,我在智力上是個非常無所畏懼的人。我不得不說,當(dāng)我招聘年輕人的時候,我也會尋找這一點(diǎn)。因?yàn)槲艺J(rèn)為如果一個人想有所作為,這是一個非常重要的品質(zhì)。也就是說,當(dāng)你想要有所作為時,你必須接受你正在創(chuàng)造新的東西,或者你正在投入到新的事物中。人們還沒有這樣做。如果你有這種自我意識,你幾乎必須允許自己無所畏-懼,并且勇敢。
所以,例如,當(dāng)我來到斯坦福大學(xué)時,在學(xué)術(shù)界,我非常接近所謂的終身教職,也就是說,在普林斯頓大學(xué)永遠(yuǎn)擁有一份工作,但是,我選擇來斯坦福是因?yàn)槲覠釔燮樟炙诡D的母校。就在那一刻,斯坦福有如此出色的人才,硅谷的生態(tài)系統(tǒng)也如此令人驚嘆,所以我愿意冒著重新開始我的終身教職的風(fēng)險。我即將成為第一位女性主管。的銷售。實(shí)際上,當(dāng)時我算是一位非常年輕的教員,我想那樣做是因?yàn)槲谊P(guān)心那個社群。我沒有花太多時間思考所有失敗的案例。顯然,我很幸運(yùn),資歷更老的教員支持我,但我只是想有所作為。然后去谷歌也很相似。我想和像杰夫·迪恩、杰夫·辛頓以及所有這些令人難以置信的演示、令人難以置信的人們一起工作,你也知道,世界實(shí)驗(yàn)室也是如此。我有這種熱情,我也相信擁有相同使命的人可以做出令人難以置信的事情。這就是它如何引導(dǎo)我的思路的。我不會過度思考所有可能出錯的事情,因?yàn)槟菢犹嗔恕?/p>
Lenny: 我覺得這是其中一個重要因素,不要專注于消極面,更多地關(guān)注人、使命以及讓你興奮的事情。你怎么看?
李飛飛: 我同意。我想對人工智能領(lǐng)域的所有年輕人才、工程師、研究人員說一件事,因?yàn)槟銈冎械囊恍┤松暾埩薟orld Labs,我感到非常榮幸你們考慮過,我確實(shí)發(fā)現(xiàn)現(xiàn)在的許多年輕人會在決定工作時思考一個等式的方方面面,也許在某個時候,也許這就是他們想做的方式,但有時我確實(shí)想鼓勵年輕人專注于重要的事情,因?yàn)楫?dāng)我與求職者交談時,我發(fā)現(xiàn)自己經(jīng)常處于指導(dǎo)模式,不一定是招聘或不招聘,而僅僅是處于指導(dǎo)模式,當(dāng)我看到一位令人難以置信的年輕人才,他過度關(guān)注考慮一份工作的每一個細(xì)微維度和方面,而也許最重要的是,你的熱情在哪里?你是否與該使命保持一致?你是否相信并信任這個團(tuán)隊(duì)?只需專注于你能產(chǎn)生的影響以及你能合作的工作和團(tuán)隊(duì)類型。
Lenny: 這很難。在人工智能領(lǐng)域工作的人們面臨著很大的壓力。現(xiàn)在有太多的東西,太多的事情壓在他們身上,太多的新聞,太多的事情發(fā)生,太多的錯失恐懼癥(FOMO)。這是真的。我能看到這種壓力。所以這個建議非常重要,就像什么才能真正讓你在你所做的事情中感到滿足,而不僅僅是哪個公司得分最快,誰將獲勝?我不知道。
以人為本:AI的責(zé)任與未來愿景
Lenny: 我想確保我問問你現(xiàn)在在斯坦福大學(xué)人機(jī)交互方面所做的工作,我認(rèn)為是人本人工智能研究所(HAI)。你在那里做什么?我知道這是你仍然在網(wǎng)站上做的事情。
李飛飛: 人本人工智能研究所(HAI)是由我和一群教職員工共同創(chuàng)立的,比如John H.Mendi教授、James Landy教授、Chris Manning教授,早在2018年,我實(shí)際上是在谷歌完成我的最后一個學(xué)術(shù)休假。這對我來說是一個非常非常重要的決定,因?yàn)槲铱梢粤粼诠I(yè)界,但我在谷歌的經(jīng)歷教會了我一件事,那就是人工智能將是一種文明或技術(shù)。我突然意識到這對人類有多么重要,以至于我實(shí)際上在當(dāng)年的《紐約時報》上發(fā)表了一篇文章(2018年),討論了制定一個指導(dǎo)框架來開發(fā)和應(yīng)用人工智能的必要性。而這個框架必須以人類的仁慈為基礎(chǔ),以人為本。我覺得斯坦福大學(xué),這所位于硅谷中心的世界頂尖大學(xué),孕育了從英偉達(dá)到谷歌等重要公司,應(yīng)該成為一個思想領(lǐng)袖,創(chuàng)建這種以人為本的人工智能框架,并在我們的研究、教育、政策和生態(tài)系統(tǒng)工作中真正體現(xiàn)這一點(diǎn)。
所以我創(chuàng)立了HAI。快進(jìn)一下,經(jīng)過六七年,它已經(jīng)成為世界上最大的AI研究所,進(jìn)行以人為本的研究、教育、生態(tài)系統(tǒng)、推廣和政策影響。它匯集了斯坦福大學(xué)所有八個學(xué)院的數(shù)百名教職員工,從醫(yī)學(xué)到教育,到可持續(xù)發(fā)展,到商業(yè),到工程,到人文,到法律。我們支持研究人員,尤其是在跨學(xué)科領(lǐng)域,從數(shù)字經(jīng)濟(jì)到法律研究,到政治學(xué),到新藥發(fā)現(xiàn),到新算法,再到超越 formers的東西。我們實(shí)際上也非常重視政策,因?yàn)楫?dāng)我們開始HAI時,我意識到硅谷沒有與華盛頓特區(qū)或布魯塞爾或世界其他地方進(jìn)行對話。鑒于這項(xiàng)技術(shù)的重要性,我們需要讓每個人都參與進(jìn)來。因此,我們創(chuàng)建了多個項(xiàng)目,從國會訓(xùn)練營到AI指數(shù)報告,再到政策簡報。
我們尤其參與了。包括倡導(dǎo)一項(xiàng)在特朗普第一屆政府期間通過的國家人工智能研究云法案,以及參與州一級的監(jiān)管人工智能討論。因此,我們做了很多,而且我仍然是領(lǐng)導(dǎo)者之一,即使我在運(yùn)營方面的參與度已經(jīng)大大降低,因?yàn)槲谊P(guān)心。不僅我們創(chuàng)造了這項(xiàng)技術(shù),而且我們以正確的方式使用它。
Lenny: 我不知道你還在做所有其他的那些工作。當(dāng)你說話時,我想起了查理·芒格說過的一句話,把一個簡單的想法非常認(rèn)真地對待。我覺得你已經(jīng)用許多不同的方式做到了這一點(diǎn),并且堅(jiān)持了下來。多年來,你在許多方面產(chǎn)生的影響令人難以置信。我要跳過閃電提問環(huán)節(jié),我只想問你最后一個問題。你還有什么想分享的,或者想留給聽眾的嗎?
李飛飛: 我對人工智能感到非常興奮。我想回答一個問題,那就是當(dāng)我在世界各地旅行時,每個人都會問我的問題是,如果我是一名音樂家,如果我是一名教師,中學(xué)教師,如果我是一名護(hù)士,如果我是一名會計(jì)師,如果我是一名農(nóng)民,我能在人工智能中扮演什么角色?或者人工智能會接管我的生活嗎?或者我的工作。我認(rèn)為這是人工智能最重要的問題。我發(fā)現(xiàn),在硅谷,我們傾向于不與人推心置腹地交流,與像我們一樣的人以及不像我們一樣的人在硅谷,而是與我們所有人。我們傾向于隨意拋出諸如無限生產(chǎn)力或無限休閑時間,或者,無限權(quán)力或諸如此類的詞語。
但歸根結(jié)底,人工智能是關(guān)于人的。當(dāng)人們問我這個問題時,我的回答是響亮的,每個人都可以在人工智能中發(fā)揮作用。這取決于你做什么和你想要什么,但任何技術(shù)都不應(yīng)該剝奪人的尊嚴(yán)。人類的尊嚴(yán)和自主性應(yīng)該成為每項(xiàng)技術(shù)的開發(fā)、部署以及治理的核心。所以,如果你是一位年輕的藝術(shù)家,并且你的熱情是講故事,那就擁抱人工智能作為一種工具。事實(shí)上,擁抱Marble吧,我希望它能成為你的工具。因?yàn)槟阒v述故事的方式是獨(dú)一無二的,世界仍然需要它。但是你如何講述你的故事呢?你如何使用你的故事呢?以最獨(dú)特的方式講述你的故事,這個最不可思議的工具非常重要。而且這種聲音需要被聽到。
如果你是一位即將退休的農(nóng)民,人工智能仍然很重要,因?yàn)槟闶且晃还瘛D憧梢詤⑴c你的社區(qū)。你應(yīng)該在人工智能的使用方式和應(yīng)用方式上擁有發(fā)言權(quán)。你和你能接觸到的人一起工作,鼓勵你們所有人使用人工智能來讓生活更輕松。如果你是一名護(hù)士,我希望至少在我的職業(yè)生涯中,我已經(jīng)在醫(yī)療保健研究領(lǐng)域投入了大量精力,因?yàn)槲艺J(rèn)為我們的醫(yī)療保健工作者應(yīng)該得到人工智能技術(shù)的極大增強(qiáng)和幫助,無論是提供更多信息的智能攝像頭,還是機(jī)器人輔助,因?yàn)槲覀兊淖o(hù)士工作過度,過度疲勞。隨著我們社會的老齡化,我們需要更多的幫助來照顧人們。所以人工智能可以發(fā)揮這個作用。
Lenny: 所以我只想說,非常重要的是,即使像我這樣的技術(shù)人員也真誠地認(rèn)為每個人都在人工智能中扮演著角色。多么美好的結(jié)束方式。這與我們開始時關(guān)于人工智能將如何在我們的生活中發(fā)揮作用,以及我們?nèi)绾纬袚?dān)個人責(zé)任的話題緊密相連。最后一個問題,人們可以在哪里找到Marble?如果他們想加入World Labs,他們可以去哪里?網(wǎng)址是什么?人們?nèi)ツ睦铮?/p>
李飛飛:您可以在World Labs的網(wǎng)站那里找到我們的研究進(jìn)展。我們有技術(shù)博客。您可以在那里找到產(chǎn)品Marble。您可以在那里注冊。您可以在那里找到我們的招聘信息鏈接。您知道,我們在舊金山。我們喜歡與世界上最優(yōu)秀的人才合作。
Lenny: 太棒了。非常感謝你的到來。
李飛飛:謝謝你,Lenny。





京公網(wǎng)安備 11011402013531號