
曾是華為“天才少年”、現(xiàn)智元聯(lián)合創(chuàng)始人“稚暉君”彭志輝(央視網(wǎng))
曾憑借華為“天才少年”計(jì)劃以201萬年薪加入、現(xiàn)任智元聯(lián)合創(chuàng)始人兼CTO的“稚暉君”彭志輝,日前在微博發(fā)布預(yù)告“下周智元機(jī)器人有好東西發(fā)布”。
3月10日上午,智元機(jī)器人正式發(fā)布首個(gè)通用具身基座模型——智元啟元大模型GO-1(Genie Operator-1)。
該模型基于Vision-Language-Latent-Action(ViLLA)框架,由VLM(多模態(tài)大模型)+MoE(混合專家)組成,具有采訓(xùn)推一體,小樣本快速泛化、“一腦多形”的跨本體應(yīng)用、持續(xù)進(jìn)化、人類視頻學(xué)習(xí)等突出優(yōu)勢(shì),可以借助人類和多種機(jī)器人數(shù)據(jù),賦予機(jī)器人革命性學(xué)習(xí)能力。
上述消息引發(fā)熱議。10日上午,、 等多個(gè)詞條登上了微博熱搜。
3月10日上午溝通會(huì)上,智元具身研究中心常務(wù)主任任廣輝對(duì)鈦媒體AGI等表示,截至目前,智元機(jī)器人已經(jīng)量產(chǎn)下線1000臺(tái)機(jī)器人。他還透露,Go-1基于通用數(shù)據(jù)訓(xùn)練,擁有非常強(qiáng)的泛化能力,在零數(shù)據(jù)下可以泛化到一個(gè)新場(chǎng)景、新任務(wù),而基于該模型可以部署到各行各業(yè)當(dāng)中,整體成本會(huì)比較低。
任廣輝強(qiáng)調(diào),“具身智能”會(huì)向通用化、開放化和智能化邁進(jìn),走向開放世界,不再局限于實(shí)驗(yàn)室了。
智元機(jī)器人合伙人、研究院執(zhí)行院長(zhǎng)、具身業(yè)務(wù)部總裁姚卯青表示,智元對(duì)于 AI 技術(shù)的投入是戰(zhàn)略級(jí)的,非常堅(jiān)定,今年也將開始規(guī)模化的生產(chǎn)和交付,并不會(huì)去顯著將一些 AI 研發(fā)投入轉(zhuǎn)移到最終的終端售價(jià)上面。他認(rèn)為,在智元啟元大模型GO-1下,智元機(jī)器人進(jìn)入到G3-G4過程當(dāng)中,能夠很好完成某一任務(wù),同時(shí)也逐步具備這種通用能力。
“機(jī)器人公司如果不做大模型,那是屬于沒有未來的,機(jī)器人沒有智能化、沒有作業(yè)能力只是一個(gè)硬件,他能做的事情非常有限。”姚卯青對(duì)鈦媒體AGI等強(qiáng)調(diào),未來,AI 能力一定是區(qū)分機(jī)器人產(chǎn)品競(jìng)爭(zhēng)力的核心。硬件也許大家會(huì)有一些類似的方案逐漸收斂,供應(yīng)鏈也會(huì)高度整合,那么在最后大家比拼一定是AI的能力,這對(duì)于機(jī)器人落地和自主作業(yè)能力至關(guān)重要。
據(jù)悉,成立于2023年的智元機(jī)器人,是當(dāng)前國(guó)內(nèi)人形機(jī)器人賽道頭部企業(yè)之一,其創(chuàng)始人之一彭志輝是坐擁250多萬粉絲的B站UP主“稚暉君”。
公司成立不到1個(gè)月,智元就完成天使輪融資、年內(nèi)更斬獲4次融資,成立僅6個(gè)月就發(fā)布首款人形機(jī)器人,2024年還發(fā)布五款商用人形機(jī)器人新品,并且去年底開源百萬真實(shí)機(jī)器人數(shù)據(jù)集,以及年初率先達(dá)成1000臺(tái)機(jī)器人量產(chǎn)等,引發(fā)行業(yè)關(guān)注。
截至目前,智元機(jī)器人已完成天使輪、A1、A1+等多輪融資,累計(jì)募資總額超過16億元。
智元機(jī)器人共有三條主打產(chǎn)品線,分別是遠(yuǎn)征、Genie和靈犀。
事實(shí)上,現(xiàn)有具身模型面臨多個(gè)落地困境,包括泛化性差,到新場(chǎng)景時(shí)成功率大幅下降;擴(kuò)展新任務(wù)時(shí)需要大量數(shù)據(jù),落地成本高;不同本體的數(shù)據(jù)無法共用,數(shù)據(jù)成本高;模型無法持續(xù)進(jìn)化;DP/ACT等具身小模型技能單一且無法快速學(xué)習(xí)新技能,GR-1/2等模型無法構(gòu)建通用的場(chǎng)景感知、指令理解等能力,語義指令泛化受限,以及小樣本泛化到新場(chǎng)景/新任務(wù)能力較弱等。

如今,智元希望解決上述一系列問題,并于今天發(fā)布了首個(gè)具身基座大模型Genie Operator-1 (GO-1)。
這是全球第一個(gè)基于大規(guī)模、高質(zhì)量自有數(shù)據(jù),基于自有機(jī)器人本體訓(xùn)練并部署的機(jī)器人基座模型。
該模型開創(chuàng)性地提出了Vision-Language-Latent-Action (ViLLA) 架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型) + MoE(混合專家)組成,其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作視頻數(shù)據(jù)獲得通用的動(dòng)作理解能力,MoE中的Action Expert(動(dòng)作專家)借助百萬真機(jī)數(shù)據(jù)獲得精細(xì)的動(dòng)作執(zhí)行能力,三者環(huán)環(huán)相扣,實(shí)現(xiàn)了可以利用人類視頻學(xué)習(xí),完成小樣本快速泛化,降低了具身智能門檻,并成功部署到智元多款機(jī)器人本體。
Genie Operator-1有五大特點(diǎn):采訓(xùn)推一體,搭配智元軟硬件一體化框架,可以實(shí)現(xiàn)數(shù)據(jù)采集、模型訓(xùn)練、模型推理的無縫銜接;小樣本快速泛化,具有強(qiáng)大的泛化能力,使得后訓(xùn)練成本非常低,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場(chǎng)景、新任務(wù);一腦多形,是一個(gè)通用機(jī)器人策略模型,能夠在不同機(jī)器人形態(tài)之間遷移,快速適配到不同本體;持續(xù)進(jìn)化,搭配智元一整套數(shù)據(jù)回流系統(tǒng),可以從實(shí)際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí);人類視頻學(xué)習(xí),可以結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),增強(qiáng)模型對(duì)人類行為的理解。
據(jù)智元介紹,相比已有的最優(yōu)模型,GO-1平均成功率提高了32%(46%->78%)。其中,在執(zhí)行“Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補(bǔ)充飲料) 任務(wù)表現(xiàn)尤為突出。
智元機(jī)器人方面表示,GO-1的出現(xiàn),為機(jī)器人代替人類完成工作生活中的各種事情,提供了強(qiáng)大的腦力支持。從準(zhǔn)備餐食、收拾桌面這樣的家庭場(chǎng)景任務(wù),到接待訪客、發(fā)放物品這類辦公和商業(yè)場(chǎng)景的常見工作,再到工業(yè)等更多場(chǎng)景的其他操作任務(wù),通用具身基座大模型都可以快速實(shí)現(xiàn)。這也意味著“具身智能”從單一任務(wù)到多種任務(wù)、從封閉環(huán)境到開放世界、從預(yù)設(shè)程序到指令泛化加速邁進(jìn),讓機(jī)器人走向更多不同場(chǎng)景、適應(yīng)多變的真實(shí)世界。
此外,任廣輝透露,公司已與階躍星辰合作,后續(xù)圍繞階躍的多模態(tài)、推理和訓(xùn)練、工程化等底層模型能力,進(jìn)行深度的合作,將階躍星辰多模態(tài)等能力賦能到機(jī)器人上面。
在姚卯青看來,利用 AI 大模型,能夠助力機(jī)器人操作上手能力,從而加速進(jìn)入工廠、零售、服務(wù)業(yè)等場(chǎng)景工作,長(zhǎng)期還能進(jìn)入家庭。“這才是機(jī)器人價(jià)值被充分發(fā)揮的時(shí)刻。”
談到最受關(guān)注的9.9萬元機(jī)器人話題,姚卯青對(duì)鈦媒體AGI獨(dú)家表示,9萬9的機(jī)器人只具備基礎(chǔ)運(yùn)動(dòng)能力,在本體、硬件、算法都還沒有收斂的情況下,大家急著“卷”價(jià)格戰(zhàn),沒有什么意義。因此,姚卯青呼吁人形機(jī)器人產(chǎn)業(yè)需要看產(chǎn)品競(jìng)爭(zhēng)力,如果都達(dá)不到給用戶創(chuàng)造價(jià)值的時(shí)候打9.9萬元,只會(huì)把整個(gè)行業(yè)變成一個(gè)很不健康的狀態(tài)。
姚卯青強(qiáng)調(diào),未來1-2年,人形機(jī)器人能夠在局部工業(yè)場(chǎng)景應(yīng)用落地,機(jī)器人走進(jìn)家庭還需要5年左右的時(shí)間。此外,機(jī)器人實(shí)現(xiàn)像人一樣有通用能力的物理世界AGI(通用人工智能)還需要5-10年時(shí)間。
據(jù)鈦媒體AGI獨(dú)家了解,預(yù)計(jì)2025年第二季度,智元將會(huì)推出基于強(qiáng)化學(xué)習(xí)的仿真模型,今年下半年,智元機(jī)器人將發(fā)布X2等多個(gè)新款商用機(jī)器人產(chǎn)品,以及“靈巧手”等多個(gè)新技術(shù),加速推進(jìn)2025年智元10倍營(yíng)收增長(zhǎng)目標(biāo)。
(本文首發(fā)于鈦媒體App,作者|林志佳)





京公網(wǎng)安備 11011402013531號(hào)