在AI技術(shù)飛速發(fā)展的今天,人形機(jī)器人正從科幻走向現(xiàn)實(shí)。當(dāng)下最火爆機(jī)器人初創(chuàng)公司之一的Figure,正在其創(chuàng)始人Brett Adcock的帶領(lǐng)下,正在人形機(jī)器人領(lǐng)域掀起一場(chǎng)前所未有的技術(shù)革命。這位有“小馬斯克”之稱的創(chuàng)始人,在近期的訪談中,分享了Figure在人形機(jī)器人領(lǐng)域的突破性進(jìn)展,以及他對(duì)未來科技發(fā)展的深刻見解。
Adcock表示,人形機(jī)器人是通用人工智能(AGI)的最佳載體,不僅能執(zhí)行復(fù)雜任務(wù),還能通過自然交互融入人類生活。他指出,如果AGI只能存在于服務(wù)器中,那么它將永遠(yuǎn)無(wú)法真正融入物理世界。
他認(rèn)為,人形機(jī)器人正在迎來類似智能手機(jī)的“iPhone時(shí)刻”,成為人類生活中不可或缺的工具。他預(yù)測(cè),未來幾年內(nèi),人形機(jī)器人的價(jià)格將大幅下降,而性能大幅提升,最終實(shí)現(xiàn)大規(guī)模普及。
Adcock還預(yù)測(cè),在未來五年內(nèi),人形機(jī)器人領(lǐng)域需要實(shí)現(xiàn)三個(gè)關(guān)鍵突破:首先,開發(fā)出高度復(fù)雜且可靠的硬件,使其能夠在真實(shí)環(huán)境中穩(wěn)定運(yùn)行;其次,通過神經(jīng)網(wǎng)絡(luò)賦予機(jī)器人類似人類的學(xué)習(xí)和模仿能力,這在人形機(jī)器人上尚未實(shí)現(xiàn);最后,解決機(jī)器人領(lǐng)域的“圣杯”問題——泛化能力,即讓機(jī)器人能夠通過語(yǔ)音指令理解并執(zhí)行從未見過的任務(wù),實(shí)現(xiàn)端到端的自主操作。
見聞總結(jié)要點(diǎn)如下:
人形機(jī)器人領(lǐng)域正在發(fā)生類似iPhone時(shí)刻的事情,這將是一個(gè)巨大的突破。人形機(jī)器人即將成為現(xiàn)實(shí)。問題是,我們只需要沿著這條曲線繼續(xù)推進(jìn),讓它更快地進(jìn)入家庭。我相信,這將在本世紀(jì)發(fā)生。在未來幾年內(nèi),你會(huì)看到人形機(jī)器人通過語(yǔ)音控制進(jìn)入家庭,能夠長(zhǎng)時(shí)間工作而無(wú)需任何提示。
如果我們解決了AGI,但它只是存在于某個(gè)服務(wù)器中,比所有人都更聰明,最終,如果它想在物理世界中做些什么,它將不得不請(qǐng)求人類去做。人形機(jī)器人是AGI的終極部署載體。
我們?cè)O(shè)計(jì)的是一種能夠勝任各種任務(wù)的機(jī)器人,從家庭機(jī)器人到遛狗、煮咖啡、洗衣服,再到商業(yè)勞動(dòng)力——大約一半的GDP是人類勞動(dòng)。這是世界上最大的市場(chǎng)。目標(biāo)市場(chǎng)規(guī)模是50萬(wàn)億到60萬(wàn)億美元。
未來你會(huì)看到這些機(jī)器人的價(jià)格在2萬(wàn)到3萬(wàn)美元之間。我們?cè)诓牧铣杀痉矫孀隽撕芏喙ぷ鳌H绻銖念^開始分解,逐項(xiàng)分析,看看它在大規(guī)模制造中的樣子,系統(tǒng)中目前沒有任何跡象表明這個(gè)產(chǎn)品會(huì)非常昂貴。
我們需要在接下來的5年左右時(shí)間里做到三件從未有人做到的事情。首先,我們需要打造一款極其復(fù)雜的人形機(jī)器人硬件。其次,你必須通過神經(jīng)網(wǎng)絡(luò),讓機(jī)器人像人類一樣學(xué)習(xí)和模仿。這在人形機(jī)器人上從未被解決過......第三,你需要解決一個(gè)機(jī)器人領(lǐng)域的“圣杯”問題:泛化能力。你需要讓機(jī)器人通過語(yǔ)音指令理解它從未見過的任務(wù),并且能夠用一個(gè)神經(jīng)網(wǎng)絡(luò)完整地執(zhí)行這個(gè)任務(wù),從頭到尾。
真正困難的部分是,機(jī)器人需要解決家庭環(huán)境中的泛化問題。每個(gè)家庭都是不同的。你知道,我們都有不同的烤箱、不同的鍋鏟、不同的餐具,而且這些物品的擺放位置會(huì)不斷變化。所以,你必須解決這種“語(yǔ)義智能”,也就是人類世界與機(jī)器人世界之間的語(yǔ)義連接。
機(jī)器人在互相移動(dòng)時(shí)需要進(jìn)行一定程度的交流。從機(jī)器人與人類的互動(dòng)設(shè)計(jì)角度來看,這非常重要.....我們需要讓機(jī)器人學(xué)會(huì)人類的表情,就像我們需要它們學(xué)會(huì)抓取物品一樣。隨著我們大規(guī)模地將機(jī)器人引入整個(gè)世界,這種能力將變得至關(guān)重要。
(人形機(jī)器人)有兩個(gè)主要的應(yīng)用方向:勞動(dòng)力市場(chǎng)和家庭市場(chǎng)。很多人沒有意識(shí)到的是,勞動(dòng)力市場(chǎng)才是最大的市場(chǎng),它占據(jù)了GDP的一半。機(jī)器人在勞動(dòng)力市場(chǎng)中執(zhí)行的任務(wù)大多是重復(fù)性的,而家庭市場(chǎng)則像“狂野的西部”,極其復(fù)雜。家庭市場(chǎng)的復(fù)雜性遠(yuǎn)高于勞動(dòng)力市場(chǎng)。
以下為訪談實(shí)錄全文,由AI翻譯
旁白:
非常榮幸能向大家介紹Brett Adcock,F(xiàn)igure的創(chuàng)始人兼首席執(zhí)行官。
主持人:
你們從零開始,在短短31個(gè)月內(nèi)就推出了第一臺(tái)機(jī)器人。
Adcock:
我們每12到18個(gè)月設(shè)計(jì)一個(gè)新的硬件平臺(tái)。在我提交C公司注冊(cè)文件之前,我們的機(jī)器人在不到12個(gè)月的時(shí)間內(nèi)就已經(jīng)能夠行走。我認(rèn)為在未來幾年,你會(huì)看到它通過語(yǔ)音控制被放入家庭中,能夠長(zhǎng)時(shí)間工作而無(wú)需任何提示。人形機(jī)器人領(lǐng)域正在發(fā)生類似iPhone時(shí)刻的事情,這將是一個(gè)巨大的突破。
主持人:
現(xiàn)在,女士們、先生們,這是一個(gè)宏偉的目標(biāo)。我想大多數(shù)人都知道,新聞媒體總是給我們帶來負(fù)面消息,因?yàn)槲覀儗?duì)負(fù)面消息的關(guān)注度是正面消息的10倍。對(duì)我來說,唯一真正值得投入且能影響人類的是科學(xué)和技術(shù)的使用。這就是我關(guān)注的內(nèi)容。每周我都會(huì)發(fā)布兩篇博客,一篇關(guān)于人工智能和指數(shù)技術(shù),另一篇關(guān)于長(zhǎng)壽。
好的,讓我們回到這一集。感謝你今天來到這里。是的,謝謝。我知道,你有三個(gè)年幼的孩子,還有一個(gè)機(jī)器人工廠和一個(gè)令人難以置信的工程師團(tuán)隊(duì),你真的很忙。我不會(huì)認(rèn)為這是理所當(dāng)然的。是的,我唯一的請(qǐng)求是下次我想要一臺(tái)Figure機(jī)器人。
Adcock:
好的,我明白了。
主持人:
寶馬已經(jīng)預(yù)訂了它們的生產(chǎn)線份額。
Adcock:
是的,我們確實(shí)有很多。實(shí)際上,我們每天都在運(yùn)行它們。所以,它們今天就在那里運(yùn)行,就在他們最大的工廠里。
主持人:
為什么你要?jiǎng)?chuàng)辦Figure?我是說,你已經(jīng)取得了令人難以置信的成功,Archer也非常出色。然后你跳進(jìn)了可能是最難進(jìn)入的行業(yè)之一。
Adcock:
是的,我認(rèn)為我們真的需要為AGI找到一種方式來賦予它一個(gè)身體。我認(rèn)為,如果我們解決了AGI,但它只是存在于某個(gè)服務(wù)器中,比所有人都更聰明,最終,如果它想在物理世界中做些什么,它將不得不請(qǐng)求人類去做。人形機(jī)器人是AGI的終極部署載體。你無(wú)法用其他東西解決這個(gè)問題。你需要某種單一平臺(tái),無(wú)需硬件更改就能做人類能做的一切。你還需要某種對(duì)神經(jīng)網(wǎng)絡(luò)有益的東西。人形機(jī)器人中的神經(jīng)網(wǎng)絡(luò)可以通過遷移學(xué)習(xí)實(shí)現(xiàn)多任務(wù)處理,這非常適合神經(jīng)網(wǎng)絡(luò)。因此,我們基本上可以構(gòu)建一個(gè)單一的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)模型,為整個(gè)機(jī)器人提供端到端的全部功能。
主持人:
恭喜你,你們從零開始,在31個(gè)月內(nèi)就推出了第一臺(tái)機(jī)器人,這非常了不起。許多公司在這么長(zhǎng)的時(shí)間內(nèi)可能只是準(zhǔn)備好他們的PPT并籌集了第一筆資金。我將會(huì)看到一些機(jī)器人,當(dāng)我上次去北邊拜訪你的時(shí)候,你向我展示了Figure 1,還有Figure 2,還有Figure 3的設(shè)計(jì)。
讓我感到真正驚嘆的是你們迭代的速度。你能談?wù)勥@一點(diǎn)嗎?快速迭代在硬件領(lǐng)域有多重要?因?yàn)橛布茈y。
Adcock:
是的,這是一個(gè)難題。我們必須想出一種從未有人做過的事情。這是一個(gè)非常復(fù)雜的系統(tǒng),從工程角度來看,它肯定比Archer更復(fù)雜,就像建造一架電動(dòng)飛機(jī)一樣。所以,我的經(jīng)驗(yàn)法則是,第一代或第二代硬件總是會(huì)很糟糕。你知道,第一代iPhone并不好。第一次做某事時(shí),你永遠(yuǎn)無(wú)法一次就做對(duì)。硬件就是這樣。你必須能看到五年后的未來,確切地知道產(chǎn)品是什么樣的,然后從第一天起就進(jìn)行全新的設(shè)計(jì)。如果你在這些方面犯了錯(cuò)誤,你可以通過設(shè)計(jì)過程來修正。你有很長(zhǎng)的前置時(shí)間、供應(yīng)鏈,等等。所以,我們每12到18個(gè)月設(shè)計(jì)一個(gè)新的硬件平臺(tái)。
主持人:
順便說一下,這聽起來真的很令人驚嘆,對(duì)吧?每12到18個(gè)月就進(jìn)行一次全新的迭代。
Adcock:
是的,我們?cè)谔峤籆公司注冊(cè)文件之前,就已經(jīng)讓Figure 1實(shí)現(xiàn)了行走,不到12個(gè)月。
主持人:
另一件你們做到的事情是你們實(shí)現(xiàn)了完全的垂直整合。
Adcock:
是的,這并不是必要之舉。人形機(jī)器人沒有供應(yīng)鏈。沒有電機(jī)供應(yīng)商,沒有傳感器供應(yīng)商,沒有電池系統(tǒng)供應(yīng)商,沒有運(yùn)動(dòng)學(xué)結(jié)構(gòu)供應(yīng)商……所有軟件也是如此,相當(dāng)廣泛。包括固件、嵌入式系統(tǒng)、操作系統(tǒng)、中間件、控制系統(tǒng)。
主持人:
那么,帶我們參觀一下你的工廠吧。你之前已經(jīng)帶我參觀過,但像,設(shè)計(jì)方面……你是如何從頭開始設(shè)計(jì)的?
Adcock:
是的,我們從頭開始全新設(shè)計(jì)所有東西。我們從本質(zhì)上思考產(chǎn)品需要做什么。產(chǎn)品需要能夠與人類交流,并且能夠在沒有任何人類干預(yù)的情況下完成任務(wù)。它需要能夠出去完成任務(wù)。所以,我們?cè)O(shè)計(jì)的是一種能夠勝任各種任務(wù)的機(jī)器人,從家庭機(jī)器人到遛狗、煮咖啡、洗衣服,再到商業(yè)勞動(dòng)力——大約一半的GDP是人類勞動(dòng)。這是世界上最大的市場(chǎng)。
主持人:
全球GDP是110萬(wàn)億到120萬(wàn)億美元。你的目標(biāo)市場(chǎng)規(guī)模是50萬(wàn)億到60萬(wàn)億美元。這很不錯(cuò)。
Adcock:
是的,這將會(huì)成為我們有生之年最大的業(yè)務(wù),遠(yuǎn)遠(yuǎn)超出其他領(lǐng)域。這個(gè)領(lǐng)域……是的,所以,我們從產(chǎn)品需要進(jìn)入的終端市場(chǎng)開始思考。我們進(jìn)行所有硬件設(shè)計(jì),包括運(yùn)動(dòng)學(xué)設(shè)計(jì)、關(guān)節(jié)、電機(jī)、電池系統(tǒng)、傳感器。我們進(jìn)行所有軟件設(shè)計(jì),包括固件、嵌入式系統(tǒng)、控制系統(tǒng)、所有人工智能工作,端到端。然后我們進(jìn)行所有測(cè)試、制造、集成,并將它們交付給客戶。所以,我們現(xiàn)在有兩家企業(yè)客戶。第一個(gè)是寶馬。我們的機(jī)器人每天都在那里運(yùn)行。它們?cè)谀峡_來納州的斯巴達(dá)堡,幫助制造汽車。
主持人:
我想我有一些寶馬工廠的視頻,如果我們可以播放背景視頻或重復(fù)播放這段視頻。
Adcock:
好的,我們可以播放。我們還有一些機(jī)器人在寶馬工廠的視頻。這些機(jī)器人基本上是在將金屬板材固定在夾具上。這是世界上每一家大型制造公司都在做的事情。我們的機(jī)器人已經(jīng)完全自主地完成了這項(xiàng)任務(wù),達(dá)到了我們需要的高性能,沒有人工干預(yù),沒有故障,沒有失敗。
主持人:
沒有藥物測(cè)試。沒有病假。沒有休息日。
Adcock:
是的,24/7全天候運(yùn)行。
主持人:
這很有趣,對(duì)吧?讓我跳到另一個(gè)問題。從體積上看,我相信我聽到你說過,未來你會(huì)看到這些機(jī)器人的價(jià)格在2萬(wàn)到3萬(wàn)美元之間。
Adcock:
是的,我們?cè)诓牧铣杀痉矫孀隽撕芏喙ぷ鳌H绻銖念^開始分解,逐項(xiàng)分析,看看它在大規(guī)模制造中的樣子,系統(tǒng)中目前沒有任何跡象表明這個(gè)產(chǎn)品會(huì)非常昂貴。
主持人:
我的計(jì)算是,如果我要租一輛3萬(wàn)美元的車,每月大約是300美元,也就是每天10美元,每小時(shí)40美分。所以,我的問題是,如果你每月支付300美元,就能擁有一臺(tái)24/7運(yùn)行、從不抱怨、不會(huì)和女朋友或男朋友吵架的機(jī)器人,你會(huì)想要擁有多少臺(tái)呢?我認(rèn)為,每個(gè)人可能都需要擁有多臺(tái)。
Adcock:
是的,你會(huì)想要一臺(tái)的。它們可以在你每天早上醒來時(shí)幫助卸下洗碗機(jī),撿起孩子們的玩具。我再也不想做這些事了。你知道,這些事我再也不想做了。我們已經(jīng)很久沒有在家庭中看到創(chuàng)新了,差不多50到70年了。它們是相同的電器,相同的東西。我們需要新的機(jī)器人。
主持人:
我們需要舊的,我們現(xiàn)在稱它們?yōu)橄赐霗C(jī)。
Adcock:
是的,它們已經(jīng)存在很長(zhǎng)時(shí)間了。我們?nèi)祟惒坏貌幻刻炫c這些機(jī)器打交道。未來你不需要再這樣做了。你只需要和機(jī)器人說話,讓它去做。它可以按照時(shí)間表工作。你可以隨時(shí)呼叫它、發(fā)短信給它、和它說話,讓它去做事,它就會(huì)去做。它會(huì)比你自己更了解你。
主持人:
我記得幾年前,我很自豪地成為Figure的早期投資者,我把團(tuán)隊(duì)介紹給你。我說,首先,布雷特是一位出色的運(yùn)營(yíng)者,有多個(gè)成功案例。未來最好的預(yù)測(cè)器是什么?是一個(gè)人在過去做過什么。這確實(shí)是未來最好的預(yù)測(cè)器之一。但我發(fā)現(xiàn)最令人驚嘆的是你組建的團(tuán)隊(duì)。你能談?wù)勥@一點(diǎn)嗎?因?yàn)槲艺J(rèn)為我們這里有很多觀眾都在關(guān)注他們的宏偉目標(biāo)。這是一個(gè)宏偉目標(biāo)。你退出Archer后,你是如何開始的?你是如何組建團(tuán)隊(duì)的?你能描述一下那個(gè)早期時(shí)刻嗎?
Adcock:
是的,你知道,我在一生中并沒有創(chuàng)辦過很多公司。每次我都會(huì)回去思考,我哪里做錯(cuò)了?哪里做對(duì)了?如何讓事情變得更好。
從根本上說,我花時(shí)間思考的是,要打造世界上最偉大的產(chǎn)品,你需要世界上最偉大的團(tuán)隊(duì)。然后你需要將這個(gè)團(tuán)隊(duì)與共享愿景對(duì)齊,每個(gè)人都需要對(duì)這個(gè)愿景負(fù)責(zé),理解它。然后你需要弄清楚如何全力加速。
所以,F(xiàn)igure的整個(gè)文化,甚至在我創(chuàng)辦Archer并組建最初的團(tuán)隊(duì)時(shí),都是非常有意識(shí)的。即使在Figure,如果你現(xiàn)在去左邊,我們有文化手冊(cè),我們有總體規(guī)劃,我們有一些真正獨(dú)特的東西。我們?cè)诠韫龋珟缀跖c硅谷的風(fēng)格相反。我們必須每天在辦公室工作。我們每周工作五到七天,非常努力。現(xiàn)在很多人不想這樣,這沒關(guān)系。只是他們不適合我們。我們現(xiàn)在已經(jīng)聚集了世界上最好的航空航天工程師。沒有人能接近我們所做到的。
主持人:
是的,這真是令人難以置信。
Adcock:
是的,這太不可思議了。我的整個(gè)商業(yè)團(tuán)隊(duì)從Archer時(shí)期就和我在一起,現(xiàn)在也在Figure。他們都是出色的運(yùn)營(yíng)者。他們給了我能力去專注于產(chǎn)品工程,打造最好的產(chǎn)品。他們幫助擴(kuò)展業(yè)務(wù),這很棒。招聘、人力資源、法律、財(cái)務(wù),各個(gè)方面都很出色。所以,團(tuán)隊(duì)非常出色。但更重要的是,我們的文化非常精準(zhǔn)。就像每個(gè)人都知道自己應(yīng)該做什么。我不需要進(jìn)行一對(duì)一的溝通,因?yàn)槲覀兊膱F(tuán)隊(duì)有一個(gè)共同的愿景,那就是推出產(chǎn)品。這就是我們的動(dòng)力所在,也是我們所有人共同的目標(biāo),這真的很好。這是一個(gè)非常困難的事情。人形機(jī)器人可能是我從事過的最復(fù)雜的項(xiàng)目之一。如果沒有這種文化,我們根本無(wú)法實(shí)現(xiàn)目標(biāo)。
主持人:
你知道,我們明天會(huì)聽到特拉維斯·克朗(Travis Klang)的分享,他也會(huì)說類似的話——你的“巨大變革目標(biāo)”、清晰的使命和愿景,以及如何圍繞這些目標(biāo)來組織團(tuán)隊(duì)和文化。這都始于你。你用自己的資金啟動(dòng)了這個(gè)項(xiàng)目,然后開始聯(lián)系其他公司的人。你當(dāng)時(shí)的說辭是什么?是為了籌集資金,還是為了吸引員工加入?不,是為了讓員工加入。
Adcock:
哦,那么你在2022年的說辭是:“我會(huì)資助這個(gè)項(xiàng)目多年。你知道,這很昂貴。我們?cè)谧畛醯牧鶄€(gè)月里就達(dá)到了每月100萬(wàn)美元的燒錢速度。但這并不是說沒有風(fēng)險(xiǎn),我只是從一開始就全力以赴。我非常清楚我們要做什么。
你知道,Archer在某種程度上就像一架飛行機(jī)器人。所以我知道如何組建團(tuán)隊(duì),我知道產(chǎn)品要做什么。我對(duì)動(dòng)力系統(tǒng)、控制系統(tǒng)、軟件和傳感器的技術(shù)細(xì)節(jié)有深刻的理解。所以我們很快就行動(dòng)起來了。我的說辭是:“嘿,我會(huì)資助這個(gè)項(xiàng)目,所以至少在未來幾年內(nèi)不會(huì)有資金風(fēng)險(xiǎn)。我們有機(jī)會(huì)打造下一個(gè)‘iPhone時(shí)刻’。人形機(jī)器人領(lǐng)域即將迎來這樣的時(shí)刻,這將是一個(gè)巨大的機(jī)遇。”
主持人:
那么,你告訴他們成功的概率是多少?
Adcock:
成功的概率很低。我們需要在接下來的5年左右時(shí)間里做到三件從未有人做到的事情,否則我們肯定會(huì)失敗。首先,我們需要打造一款極其復(fù)雜的人形機(jī)器人硬件。它不能出故障,必須始終正常工作,并且要以人類的速度和靈活性運(yùn)行。從來沒有人做到過這一點(diǎn)。比如,波士頓動(dòng)力的機(jī)器人雖然可以跳躍、翻跟頭,但還無(wú)法做到像人類一樣靈活地操作物體。這是一個(gè)硬件系統(tǒng)的巨大挑戰(zhàn),可能和制造噴氣發(fā)動(dòng)機(jī)一樣復(fù)雜。
其次,這是一個(gè)神經(jīng)網(wǎng)絡(luò)問題,而不是控制問題。你不能通過編寫代碼來解決這個(gè)問題。你不能雇傭一堆博士,讓他們?yōu)闄C(jī)器人編寫程序來解決每一個(gè)問題。你必須通過神經(jīng)網(wǎng)絡(luò),讓機(jī)器人像人類一樣學(xué)習(xí)和模仿。這在人形機(jī)器人上從未被解決過,因?yàn)檫@是一個(gè)高維度的系統(tǒng),而不是像桌上的機(jī)械臂那樣簡(jiǎn)單,后者大多數(shù)都沒有人工智能。
第三,你需要解決一個(gè)機(jī)器人領(lǐng)域的“圣杯”問題:泛化能力。你需要讓機(jī)器人通過語(yǔ)音指令理解它從未見過的任務(wù),并且能夠用一個(gè)神經(jīng)網(wǎng)絡(luò)完整地執(zhí)行這個(gè)任務(wù),從頭到尾。
我們需要在2022年解決這些問題。如果我們能做到,我們就會(huì)在這個(gè)十年內(nèi)取得成功,打造出人形機(jī)器人領(lǐng)域的“iPhone時(shí)刻”。我們已經(jīng)全面啟動(dòng)了。但在2022年,這些看起來幾乎是不可能完成的任務(wù)。當(dāng)時(shí),波士頓動(dòng)力的機(jī)器人雖然可以做很多動(dòng)作,但還遠(yuǎn)遠(yuǎn)達(dá)不到進(jìn)入家庭所需的靈活性和操作能力。現(xiàn)在,我們可以說我們已經(jīng)在這些方面取得了實(shí)質(zhì)性進(jìn)展。
主持人:
這太令人驚嘆了。
所以,去年有一個(gè)關(guān)鍵的時(shí)刻,你說OpenAI是一個(gè)重要的投資者,你們?cè)居?jì)劃使用OpenAI的AI系統(tǒng),但你最終決定自己開發(fā)內(nèi)部的AI系統(tǒng)——Helix。你能談?wù)勥@個(gè)決定嗎?我想展示一段關(guān)于Figure在家庭中應(yīng)用的視頻。
Adcock:
好的。你看到的是Helix,這是我們內(nèi)部開發(fā)的大型AI系統(tǒng),它是一個(gè)視覺-語(yǔ)言-動(dòng)作模型。這段視頻是公開的,可以在YouTube上找到。科里(Corey)是Helix團(tuán)隊(duì)的負(fù)責(zé)人,他給出的指令是“把雜貨放在桌子上”。

但機(jī)器人并沒有被告知這些雜貨應(yīng)該放在哪里,也沒有被告知它們是什么。實(shí)際上,我們?cè)谟?xùn)練中故意沒有讓機(jī)器人接觸過這些物品。所以,這是機(jī)器人第一次通過自己的攝像頭和傳感器看到這些物品。真正困難的部分是,機(jī)器人需要解決家庭環(huán)境中的泛化問題。每個(gè)家庭都是不同的。你知道,我們都有不同的烤箱、不同的鍋鏟、不同的餐具,而且這些物品的擺放位置會(huì)不斷變化。所以,你必須解決這種“語(yǔ)義智能”,也就是人類世界與機(jī)器人世界之間的語(yǔ)義連接。
Helix能夠通過單個(gè)神經(jīng)網(wǎng)絡(luò)在每個(gè)機(jī)器人之間進(jìn)行通信,并且能夠?qū)⑦@些物品正確地放置到位。這可能是機(jī)器人歷史上最重要的AI更新。未來所有能動(dòng)的物體都將是機(jī)器人,它們將由像這樣的AI代理驅(qū)動(dòng)。這個(gè)系統(tǒng)是用非常少的數(shù)據(jù)訓(xùn)練的,只有500小時(shí)的數(shù)據(jù)。
主持人:
我非常喜歡他們互相看著對(duì)方以確認(rèn)的方式,比如“是的,我明白了”,或者“哦,把那個(gè)東西放在那里是個(gè)好主意”。
Adcock:
是的,這確實(shí)很有趣。部分原因是這種行為是從訓(xùn)練中自然產(chǎn)生的。當(dāng)機(jī)器人進(jìn)行物品交接時(shí),它們實(shí)際上會(huì)互相看一眼,這是一種信號(hào),表明它們應(yīng)該在何時(shí)松開或抓住物品,以防止物品掉落。這種行為是從訓(xùn)練中自然產(chǎn)生的,非常有趣。另一個(gè)原因是,機(jī)器人在互相移動(dòng)時(shí)需要進(jìn)行一定程度的交流。從機(jī)器人與人類的互動(dòng)設(shè)計(jì)角度來看,這非常重要。你不想走進(jìn)一個(gè)房間,看到機(jī)器人只是呆呆地站著,不看你,也不做出任何反應(yīng)。人類會(huì)通過眼神交流、點(diǎn)頭和手勢(shì)來進(jìn)行溝通。所有這些對(duì)于機(jī)器人來說都是非常重要的,因?yàn)槲覀冃枰寵C(jī)器人學(xué)會(huì)這些人類的表情,就像我們需要它們學(xué)會(huì)抓取物品一樣。隨著我們大規(guī)模地將機(jī)器人引入整個(gè)世界,這種能力將變得至關(guān)重要。
主持人:
我有一千個(gè)問題想問你。讓我快速地提幾個(gè)。好的,那我們開始吧。Figure 3什么時(shí)候能展示出來?我看到了它的設(shè)計(jì)。Figure 3什么時(shí)候能公開展示?
Adcock:
你會(huì)一直問我們這個(gè)問題。你覺得它好看嗎?我認(rèn)為你已經(jīng)看到了它。
主持人:
它的設(shè)計(jì)非常出色。我認(rèn)為人們還不明白這有多么令人驚嘆。
Adcock:
因?yàn)槲覀冞€沒有公開展示,所以他們不知道。你知道,F(xiàn)igure 1是我們?cè)谝曨l中展示的機(jī)器人,那是第一代機(jī)器人。你可以看到,F(xiàn)igure 1有點(diǎn)粗糙,外面還露著電線,設(shè)計(jì)得更快速,以便讓我們的工程師能夠盡快開始進(jìn)行實(shí)際的用例測(cè)試。
Figure 2是一個(gè)功能完備的機(jī)器人,它幾乎可以完成人類能做的所有事情。我們還沒有公開談?wù)撎啵覀儸F(xiàn)在已經(jīng)完成了Figure 3的設(shè)計(jì)。我想我們可能會(huì)在下周展示一個(gè)更新版本。雖然這次更新可能不會(huì)涉及太多技術(shù)細(xì)節(jié),但Figure 3相比前代產(chǎn)品是一個(gè)巨大的飛躍。從Figure 1到Figure 2,已經(jīng)是一個(gè)巨大的飛躍,從一個(gè)大學(xué)宿舍項(xiàng)目的原型到一個(gè)相當(dāng)不錯(cuò)的機(jī)器人。而Figure 3的飛躍同樣巨大。我們花了18個(gè)月從頭開始設(shè)計(jì)它。從高層來看,它比前代產(chǎn)品便宜了90%,更小、更輕,配備了更好的傳感器。它的手部、頭部和腳部的設(shè)計(jì)完全為神經(jīng)網(wǎng)絡(luò)優(yōu)化。這可以說是我職業(yè)生涯中最自豪的工程成就之一。我們計(jì)劃今年開始量產(chǎn)Figure 3,并將其推向市場(chǎng)。
這就是我們希望推向全世界的機(jī)器人。我們希望它成本低廉,功能強(qiáng)大,并且在幾乎所有方面都更優(yōu)秀。我們很快會(huì)發(fā)布更多關(guān)于它的更新。這就是我們希望推向家庭和勞動(dòng)力市場(chǎng)的機(jī)器人。
主持人:
關(guān)于未來三到四年的生產(chǎn)計(jì)劃,以及我什么時(shí)候能在家里看到它?
Adcock:
我們有兩個(gè)主要的應(yīng)用方向:勞動(dòng)力市場(chǎng)和家庭市場(chǎng)。很多人沒有意識(shí)到的是,勞動(dòng)力市場(chǎng)才是最大的市場(chǎng),它占據(jù)了GDP的一半。我們可以在家庭市場(chǎng)收取更高的價(jià)格,但家庭市場(chǎng)也更復(fù)雜。機(jī)器人在勞動(dòng)力市場(chǎng)中執(zhí)行的任務(wù)大多是重復(fù)性的,而家庭市場(chǎng)則像“狂野的西部”,極其復(fù)雜。我們面臨巨大的安全挑戰(zhàn),例如確保機(jī)器人不會(huì)撞到人或引發(fā)危險(xiǎn),比如打翻蠟燭引發(fā)火災(zāi)。家庭市場(chǎng)的復(fù)雜性遠(yuǎn)高于勞動(dòng)力市場(chǎng)。
目前,我們?cè)趧趧?dòng)力市場(chǎng)的需求非常旺盛。我們的前兩個(gè)商業(yè)客戶——寶馬和其他一家大型物流公司——已經(jīng)對(duì)我們的機(jī)器人表現(xiàn)出極高的興趣。如果今天有10萬(wàn)臺(tái)機(jī)器人可用,這些客戶會(huì)立刻購(gòu)買。我們還與50家財(cái)富100強(qiáng)公司進(jìn)行了接觸,他們都對(duì)我們的產(chǎn)品表示了強(qiáng)烈的興趣。勞動(dòng)力市場(chǎng)的需求幾乎是無(wú)限的,因?yàn)槿蛉丝诮Y(jié)構(gòu)的變化導(dǎo)致勞動(dòng)力短缺,尤其是在制造業(yè)和物流領(lǐng)域。
我們計(jì)劃在家庭市場(chǎng)進(jìn)行內(nèi)部測(cè)試,最早可能在今年開始。我們的目標(biāo)是讓機(jī)器人能夠通過語(yǔ)音指令完成各種家務(wù)任務(wù),比如收拾餐具、照顧孩子、做家務(wù)等。我們相信,隨著Helix的不斷進(jìn)步,機(jī)器人將能夠在家庭環(huán)境中自主學(xué)習(xí)和執(zhí)行任務(wù),而不需要人類的持續(xù)指導(dǎo)。
我們面臨的最大挑戰(zhàn)仍然是語(yǔ)義智能,即機(jī)器人需要理解它所處的環(huán)境并正確執(zhí)行任務(wù)。我們相信,通過增加訓(xùn)練數(shù)據(jù)量,Helix將能夠更好地理解家庭環(huán)境。目前,Helix的訓(xùn)練數(shù)據(jù)量還比較有限,只有大約500小時(shí)。我們計(jì)劃在未來幾個(gè)月內(nèi)大幅增加數(shù)據(jù)量,以提升機(jī)器人的性能。
目前,Helix的訓(xùn)練數(shù)據(jù)量還比較有限,只有大約500小時(shí)。我們?cè)诰W(wǎng)站上提到Helix時(shí),展示了一個(gè)小實(shí)驗(yàn):把一些奇怪的小物件放在機(jī)器人面前,比如從孩子房間里拿出來的仙人掌玩具,然后告訴它“撿起那個(gè)沙漠物品”,它會(huì)把仙人掌識(shí)別為一種沙漠植物。它能夠識(shí)別并撿起這些物品。所有這些都存儲(chǔ)在它的權(quán)重中,它有一個(gè)很大的語(yǔ)言模型作為支撐。因此,它真的理解了世界的語(yǔ)義基礎(chǔ)。
我們覺得,現(xiàn)在Helix只是數(shù)據(jù)受限。如果我們把訓(xùn)練Helix的數(shù)據(jù)集增加幾個(gè)數(shù)量級(jí),它可能會(huì)表現(xiàn)得更好。目前,Helix已經(jīng)能夠識(shí)別并撿起我們放在它面前的幾乎所有小物件。比如,我們放了一個(gè)會(huì)唱歌、會(huì)動(dòng)的玩具仙人掌,它識(shí)別出了這是一個(gè)“沙漠物品”,并將其撿起。所有這些都存儲(chǔ)在它的權(quán)重中,它有一個(gè)很大的語(yǔ)言模型作為支撐。所以,它真的理解了世界的語(yǔ)義基礎(chǔ)。
我們只需要更多的數(shù)據(jù),這基本上是目前的瓶頸。我們覺得,只要增加Helix訓(xùn)練的數(shù)據(jù)量,它就能更好地理解家庭環(huán)境。目前,Helix已經(jīng)能夠很好地完成任務(wù),比如識(shí)別并撿起我們放在它面前的物品。它甚至可以通過語(yǔ)義理解來完成任務(wù),比如當(dāng)我們說“把那個(gè)沙漠物品撿起來”,它會(huì)把仙人掌識(shí)別為與“沙漠”相關(guān)的物品并撿起它。所有這些都表明,Helix已經(jīng)具備了很強(qiáng)的語(yǔ)義理解能力。
我認(rèn)為,我們已經(jīng)開始看到一些突破性的進(jìn)展,這在歷史上從未有過。人形機(jī)器人即將成為現(xiàn)實(shí)。問題是,我們只需要沿著這條曲線繼續(xù)推進(jìn),讓它更快地進(jìn)入家庭。我相信,這將在本世紀(jì)發(fā)生。在未來幾年內(nèi),你會(huì)看到人形機(jī)器人通過語(yǔ)音控制進(jìn)入家庭,能夠長(zhǎng)時(shí)間工作而無(wú)需任何提示。
主持人:
好的,感謝大家收聽本期節(jié)目。這是我最喜歡分享的內(nèi)容。每周我都會(huì)發(fā)布兩篇博客,很多內(nèi)容都來自這里,這些是我的個(gè)人筆記,記錄了我關(guān)于人工智能、長(zhǎng)壽以及正在改變我們世界的前沿技術(shù)的學(xué)習(xí)和思考。下周我們?cè)僖姡?/p>





京公網(wǎng)安備 11011402013531號(hào)