不久前,年僅 18 歲的創業者 Eddy Xu 在社交媒體上宣布,其創辦的 Build AI 正式開源 Egocentric-10K 數據集,這是一個包含 10,000 小時第一人稱視角視頻的數據集,記錄了 2,153 名工廠工人在真實車間環境中的實際操作場景。數據集總容量達 16.4 TB,包含超過 10.8 億幀畫面,已在 Hugging Face 平臺發布,采用 Apache 2.0 許可證,允許商業使用和修改。
![]()
圖丨相關推文(X)
Eddy Xu 在推文中寫道:“歷史上最大的第一人稱視角數據集,機器人學習的數據擴展時代已經到來。”
Egocentric-10K 的視頻全部來自真實工廠車間,而非實驗室環境。工人們佩戴頭戴式攝像設備,在日常工作中記錄下從零件加工、分揀、組裝、包裝到檢驗的完整流程。數據統計顯示,96.42% 的工作涉及至少一只手的操作,76.34% 需要雙手協同,91.66% 包含主動的物體操縱動作。這些數字明顯高于此前公開的同類數據集——例如 Ego4D 的手部可見率為 67.33%,EPIC-KITCHENS 則為 90.37%。
![]()
圖丨與其他數據集的比較(X)
視頻以全高清 MP4 格式存儲,按工廠和工人分類組織。每個視頻片段都附帶 JSON 格式的元數據,包括工廠編號、工人編號、視頻時長、分辨率、幀率等信息。數據集采用 WebDataset 格式,支持流式加載和部分下載,研究者可以根據需要選擇特定工廠或工人的數據進行訓練。
Build AI 的創始人 Eddy Xu 的成長軌跡相當傳奇。2021 年,還在讀初三的他就帶領 Great Neck 的機器人團隊 1569A OMEGA 參加 VEX 機器人世界錦標賽,在 2 萬支參賽隊伍中獲得第 32 名。這支隊伍在隊員家的地下室里運營,沒有家長或專業教練指導,也沒有資金贊助。
![]()
圖丨Eddy Xu(X)
后來 Eddy Xu 進入 Miller School of Albemarle,在那里他成為計算機編程課程的學生助教,開發了工程設計軟件供學校的混凝土獨木舟團隊使用。他自學 Java 和 Python,在高中階段就通過了 AP 計算機科學考試。
除此之外,他還有一些系列創業經歷:籌集 12 萬美元建立競技機器人團隊并贏得全國簽名錦標賽,在 DECA 商業世界錦標賽的 20 萬名競爭者中勝出,3 個月內出售一家擁有 17.8 萬用戶的教育科技初創公司。
2025 年初,他在哥倫比亞大學就讀時開發了一款基于 meta 智能眼鏡的 AI 國際象棋系統。這個項目使用計算機視覺識別棋盤,結合象棋引擎實時提供最優走法,一度在社交媒體上引發熱議。
![]()
圖丨Eddy Xu 開發的 AI 眼鏡(X)
今年,Eddy Xu 從哥倫比亞大學輟學創辦 Build AI。他在個人網站上寫道:“我拒絕了超過 2,500 萬美元的股權邀約來創辦 Build。團隊中的其他人也離開了學術界、頂級實驗室和他們自己的公司加入進來。”而他為公司定下的使命也相當宏偉:“構建物理超級智能,為所有人帶來富足”。
Build AI 在 9 月獲得了 500 萬美元融資,由 Abstract Ventures、Pear VC 和 HF0 三家早期投資機構共同領投,ZFellows 和 Alex Botez (正是使用 Xu 開發的國際象棋眼鏡的那位棋手)作為天使投資人參與。
根據其官網描述,Build AI 是第一家“圍繞擴展經濟上有用的自我中心人類數據而專注打造的公司”,具體來說,其主要策略就是“制造記錄設備并在全球企業中部署”。
所謂第一人稱視角或自我中心視覺(egocentric vision),指的是從執行者自身視角捕捉的視覺信息。與傳統的固定機位第三人稱拍攝不同,這種視角記錄了手部操作的細節、視線的移動軌跡以及身體與環境的互動方式。meta 的研究項目 EgoMimic 已經證明,使用 Project Aria 智能眼鏡收集的人類第一人稱操作數據,能夠顯著提升機器人的任務成功率并實現場景泛化。
另一家知名的人形機器人公司 Figure AI 也采取了這種收集數據的方法。Figure AI 在今年 9 月宣布了“Project Go-Big”計劃,通過與資產管理巨頭 Brookfield 合作,在超過 10 萬個住宅單元中收集人類日常活動的自我中心視頻,用于訓練其人形機器人 Figure 03。Figure AI 聲稱已實現“零樣本人類到機器人遷移”,機器人僅通過觀看人類視頻就能學會執行導航任務,無需任何機器人專用訓練數據。這種方法被 Figure 形容為“互聯網規模的人形機器人預訓練”。
除了依靠人類視頻之外,業內也所采用的另一條線路則是從真實機器人交互中直接收集數據。我們不久前報道的 Generalist AI 即是這條路線的代表,其 GEN-0 模型據稱使用了超過 27 萬小時的機器人操作數據進行預訓練,以每周 1 萬小時的速度增長。
兩種路徑各有優劣。人類視頻數據豐富且易于大規模采集,但存在實施差距(Embodiment Gap),人類的身體結構與機器人截然不同,如何將人類的動作映射到機器人上是個難題。機器人自身數據雖然不存在映射問題,但采集成本高昂,規模擴展困難。
Xu 曾表示,Build AI自成立以來已經“收集了比歷史上任何公司都多的自我中心數據”,但關于這些數據的可用性等核心問題,我們目前尚不得而知。
正如其官網所表示的,這是一個“具有重大技術風險和低成功概率”的研究性押注。網站寫道:“如果我們是對的,我們既能推進機器人研究,也能從根本上改善數十億人的生活。”公司強調團隊由獨角獸創始人、機器人競賽世界冠軍和學術研究者組成,價值觀是“緊迫感、雄心和技術卓越”。
目前,Egocentric-10K 數據集的完整版本和 3 萬幀的評估子集都已在 Hugging Face 上公開。研究者可以使用 Python 的 datasets 庫直接加載,也可以選擇特定工廠或工人的數據進行實驗。Build AI 表示,這個數據集的規模和質量還在持續增長中。
參考資料:
1.https://build.ai/
2.https://huggingface.co/datasets/builddotai/Egocentric-10K
3.https://x.com/eddybuild/status/1987951619804414416
4.https://www.eddy.build/
5.https://www.humanoidsdaily.com/feed/build-ai-open-sources-10-000-hours-of-factory-worker-video-to-scale-robot-learning
運營/排版:何晨龍





京公網安備 11011402013531號