
人形機(jī)器人進(jìn)廠打工早就不是新鮮事了,但有勇氣一鏡到底公開展示的目前也就 Figure 一家。
就在今天,F(xiàn)igure 發(fā)布了一部長(zhǎng)達(dá) 1 小時(shí)的視頻,邀請(qǐng)全網(wǎng)監(jiān)工機(jī)器人 Figure 02 分揀快遞。在視頻當(dāng)中,F(xiàn)igure 02 要完成這樣四項(xiàng)工作:
拿起左手邊的快遞;找到并掃描快遞包裝上的快遞單;將快遞單朝下放置到右手邊的傳送帶上;甚至可以輕輕拍一下包裹,保證平整。
但是,這項(xiàng)工作的難點(diǎn)至少有三個(gè):
快遞包裝的種類繁多(紙盒,包裹袋,文件袋等),且五顏六色,不同的包裝分別應(yīng)該怎么抓?如何準(zhǔn)確找到快遞單的位置?如何保證更高的準(zhǔn)確率,工作中少出錯(cuò)?這三個(gè)難點(diǎn),F(xiàn)igure 的就是用此前發(fā)布的 Helix 神經(jīng)網(wǎng)絡(luò)解決的。今早,F(xiàn)igure 在官網(wǎng)上線了一篇文章,總結(jié)了此前 10 - 60 小時(shí)訓(xùn)練期間的數(shù)據(jù)變化,對(duì)一個(gè)小時(shí)的視頻做了詳細(xì)解讀。Figure 02 之所以能這么強(qiáng),秘訣就在于視覺記憶、狀態(tài)歷史以及力反饋這三個(gè)關(guān)鍵詞。并且,最后還有個(gè)彩蛋,如果機(jī)器人工作的時(shí)候,有人伸手了,機(jī)器人會(huì)怎么辦?
平均 4 秒處理一個(gè)包裹
從能力上看,F(xiàn)igure 02 在處理快遞包裹的時(shí)候,已經(jīng)表現(xiàn)出了不錯(cuò)的成熟度,具體就表現(xiàn)在工作流的四個(gè)環(huán)節(jié)當(dāng)中。
Figure 02 可以處理不同形狀的快遞包裹,最簡(jiǎn)單的是紙箱,但更難的是塑料袋包裹、文件袋以及其他容易產(chǎn)生形變的包裹。由于這些包裹容易折疊、起皺或者彎曲,就讓抓取和快遞單的定位更困難。基于 Helix 神經(jīng)網(wǎng)絡(luò),F(xiàn)igure 02 就能動(dòng)態(tài)調(diào)整抓取策略,最終處理一件包裹的平均時(shí)間為 4.05 秒,快遞單條碼的定位成功率提升到接近 95%。

另一方面,在將包裹翻轉(zhuǎn)之后,F(xiàn)igure 02 手上還有個(gè)微動(dòng)作——輕輕拍一下包裹,將其撫平。實(shí)際上,在學(xué)習(xí)過程中,這一動(dòng)作并非強(qiáng)制,而是機(jī)器人在端到端學(xué)習(xí)之中總結(jié)出來的方法。
神經(jīng)網(wǎng)絡(luò)的三大改進(jìn)
Figure 02 為什么能做到這么高的效率?答案在于 Helix 神經(jīng)網(wǎng)絡(luò)對(duì)系統(tǒng) 1 視覺運(yùn)動(dòng)策略的改進(jìn)。在過去兩個(gè)月時(shí)間里,F(xiàn)igure 引入了視覺記憶、狀態(tài)歷史以及力反饋三個(gè)模塊,能夠讓 Helix 神經(jīng)網(wǎng)絡(luò)更好地感知外部世界隨時(shí)間的變化,并且感受自身行為。這到底是什么意思呢?我們還是要回到 Figure 的工作現(xiàn)場(chǎng)。

在抓取快遞包裹之后,如果快遞標(biāo)簽不在正上方,F(xiàn)igure 可能要檢查包裹的另一面,這時(shí)候就需要視覺記憶模塊起作用了。
Helix 能夠短時(shí)間記憶周圍環(huán)境,從近期的視頻幀中合成特征,從而獲得場(chǎng)景的時(shí)間擴(kuò)展視圖。這樣一來, 機(jī)器人可以記住它檢查過包裹的哪幾個(gè)側(cè)面,同一個(gè)面不會(huì)檢查兩次。
從本質(zhì)上來說,視覺記憶賦予了 Helix 一種時(shí)間上下文感知能力,以視覺記憶為指導(dǎo),而不是碰運(yùn)氣。這樣,F(xiàn)igure 02 實(shí)現(xiàn)了更高的工作效率——快遞單條碼定位成功率接近 95%。
另一個(gè)提升工作效率的方式就是讓動(dòng)作連續(xù)起來,左右手都不能閑著,F(xiàn)igure 引入了狀態(tài)歷史這一模塊。最初,F(xiàn)igure 給機(jī)器人的策略是固定時(shí)長(zhǎng)的動(dòng)作塊(比如在 0.5 秒內(nèi)伸手);之后,通過將機(jī)器人的狀態(tài)歷史納入策略輸入,系統(tǒng)就能讓動(dòng)作塊之間連續(xù)起來。更重要的是,狀態(tài)歷史保留了前后的視覺記憶,即便重新規(guī)劃,也不會(huì)破壞整個(gè)流程的效率。
最終, Figure 02 能夠更快地響應(yīng)意外和干擾,如果包裹抓取失敗,Helix 會(huì)用最低的延遲糾正其中的運(yùn)動(dòng),這同樣提升了包裹的處理效率。
在抓取快遞包裹時(shí),還有一大難點(diǎn)在于究竟要用多大的力量抓取包裹?Figure 給出的方案是加入力反饋模塊。目前,F(xiàn)igure 02 對(duì)環(huán)境、物體施加的力已經(jīng)成為輸入神經(jīng)網(wǎng)絡(luò)狀態(tài)的一部分。比如,在機(jī)器人伸手拿包裹時(shí),它可以記錄下時(shí)間,當(dāng)包裹已經(jīng)平整放在臺(tái)面上,手上施加力量也壓不動(dòng)的時(shí)候,機(jī)器人就會(huì)停止向下壓包裹。
通過力反饋模塊的加入,F(xiàn)igure 02 的成功率與運(yùn)動(dòng)一致性再次提高。
如何證明模型有效?
為了量化 Helix 改進(jìn)對(duì) Figure 02 能力的提升,研究人員針對(duì)不同的方案進(jìn)行了訓(xùn)練,最后結(jié)果就看兩個(gè)數(shù)據(jù),一個(gè)是包裹的處理速度,另一個(gè)是快遞單掃描的成功率。
第一個(gè)控制控制變量實(shí)驗(yàn)是研究訓(xùn)練時(shí)間與模型熟練程度的關(guān)系。研究人員分別在 10、20、40、60 小時(shí)時(shí)記錄模型的能力。結(jié)果發(fā)現(xiàn),在訓(xùn)練 10 小時(shí)后,包裹處理的速度為 6.34 秒,而在訓(xùn)練 60 小時(shí)后,包裹的處理速度為 4.31 秒,速度快了 58%。同時(shí),快遞單掃描成功率也從 88.2% 提升到了 94.4%。

這也就說明,未來隨著數(shù)據(jù)規(guī)模擴(kuò)大,模型性能會(huì)持續(xù)提升。
第二個(gè)實(shí)驗(yàn)針對(duì)視覺記憶、力反饋模塊的增加,探究能否提升機(jī)器人的工作效率。研究人員有有多組參考,分別是單目視覺、立體視覺、加入視覺記憶、加入狀態(tài)歷史和力反饋、在此前基礎(chǔ)上增加 50% 參數(shù)量共 5 個(gè)對(duì)照。

結(jié)果表明,在加入視覺記憶后,單個(gè)快遞的處理時(shí)間減少了 0.5 秒;在加入狀態(tài)歷史和力反饋后,識(shí)別快遞單的準(zhǔn)確率從 85.1% 提升至 94.4%。最終,單個(gè)快遞處理時(shí)間為 4.05 秒,準(zhǔn)確率 92.5%。
也就是說,這兩項(xiàng)實(shí)驗(yàn)?zāi)軌蛑苯幼C明 Figure 新加入的模塊對(duì)于提升效率和準(zhǔn)確度有很大的幫助。
在最后,F(xiàn)igure 還展示了一個(gè)彩蛋,當(dāng) Figure 02 認(rèn)真工作的時(shí)候,有個(gè)人走到面前伸出手,機(jī)器人會(huì)認(rèn)為這是要將包裹交給他的意思。這時(shí)候機(jī)器人不會(huì)將包裹放在傳送帶上,而是交給對(duì)面的人。

這種類人的條件反射非常驚艷,因?yàn)檫€沒有第二個(gè)機(jī)器人能這樣與人互動(dòng)。不過,機(jī)器人剛剛進(jìn)入社會(huì),畢竟還是 Too Young,人伸出手竟然就把東西遞出去了,看來他還是不太懂復(fù)雜的人類。





京公網(wǎng)安備 11011402013531號(hào)