![]()
圖片由AI生成
隨著大模型深度融入汽車行業,行業競爭正從功能實現轉向高階智駕能力的比拼,而VLA(Vision-Language-Action Model,視覺語言行動模型)被視為下一代技術競爭的關鍵變量。
當地時間12月1日,英偉達(NVIDIA)宣布正式開源其最新自動駕駛“視覺—語言—行動”(VLA)模型 Alpamayo-R1,該模型能夠同時處理車輛攝像頭畫面、文本指令,并輸出行車決策,已在GitHub和Hugging Face平臺開源,并同步推出Cosmos Cookbook開發資源包。
這是行業內首個專注自動駕駛領域的開源VLA模型,英偉達此舉旨在為L4級自動駕駛落地提供核心技術支撐。
值得注意的是,英偉達Alpamayo-R1相較于傳統黑盒式自動駕駛算法,主打“可解釋性”,能夠給出自身決策的理由,有助于安全驗證、法規審查與事故責任判定。而英偉達同時發布“Cosmos Cookbook”等配套工具,能夠支持企業和開發者快速訓練、評估與部署。
業內認為,英偉達試圖通過開放核心技術,降低自動駕駛開發門檻,加速軟件棧標準化,打破原來Robotaxi昂貴的“全棧自研”模式,從而轉變為可快速組裝的“安卓式”生態。
不過也有業內人士向筆者表示,此次英偉達Alpamayo-R1開源與百度Apollo開源類似,對自動駕駛領域的入門選手來說有價值,但對專業公司來說意義不大。
目前,VLA正成為智能駕駛領域公認的下一代核心技術,相關企業都在加碼布局。國內理想汽車、小鵬汽車、長城汽車(已搭載于魏牌藍山)、元戎啟行等都已在VLA上實現量產落地。
解決傳統“端到端”模型痛點
傳統的端到端模型像一個“黑盒”,可能“看得見但看不懂”,在面對違規左轉、行人闖入等長尾場景時容易“翻車”。
而相較于傳統“端到端”模型,VLA通過引入語言模態作為中間層,將視覺感知轉化為可解釋的邏輯鏈,從而具備了處理長尾場景和復雜突發狀況的潛力,讓機器像人類一樣“觀察、推理、決策”,而不僅僅是海量數據的簡單映射。
自動駕駛領域的VLA(視覺-語言-動作)大模型,代表了將視覺感知、語言理解與決策控制深度融合的技術方向。它能直接輸出車輛的駕駛動作,其核心好處是,讓機器有了更強的環境理解與推理能力、更高效的一體化決策、更強大的長尾場景應對、更透明的人機交互與信任構建、更自然的車控方式等。
此次英偉達開源的VLA模型Alpamayo-R1,基于全新的 “因果鏈”(Chain of Causation, CoC) 數據集訓練。每一段駕駛數據不僅標注了車輛“做了什么”,更注明了“為什么這樣做”。
例如,“減速并左變道,是因為前方有助動車等紅燈,且左側車道空閑”。這意味著模型學會的是基于因果關系的推理,而非對固定模式的死記硬背。
同時,基于模塊化VLA架構,英偉達Alpamayo-R1將面向物理人工智能應用預訓練的視覺語言模型Cosmos-Reason,與基于擴散模型的軌跡解碼器相結合,可實時生成動態可行的規劃方案;以及多階段訓練策略,先通過監督微調激發推理能力,再利用強化學習(RL)優化推理質量——借助大型推理模型的反饋,并確保推理與動作的一致性。
英偉達公布的數據顯示:Alpamayo-R1在復雜場景下的軌跡規劃性能提升了12%,近距離碰撞率減少25%,推理質量提升 45%,推理-動作一致性增強37%。模型參數從0.5B擴展至7B的過程中,性能持續改善。車載道路測試驗證了其實時性表現(延遲99毫秒)及城市場景部署的可行性。
也因此,英偉達Alpamayo-R1有望給L4自動駕駛帶來能力的躍遷,Robotaxi有望安全地融入真實、混亂的公開道路。
成為自動駕駛賽道的“安卓”
從這次開源Alpamayo-R1,可以再次看出英偉達在自動駕駛領域的野心,已經不滿足于只是“硬件供應商”,而是要做成自動駕駛賽道的“安卓”。
其實,早在今年10月份,英偉達就對外低調發布了Alpamayo-R1大模型。而在華盛頓GTC大會上,英偉達發布了自動駕駛平臺——NVIDIA DRIVE AGX Hyperion 10。
Hyperion 10被認為是英偉達自動駕駛的“身體”,而Alpamayo-R1則是自動駕駛的大腦。
值得注意的是,Hyperion 10實現了“從仿真到實車”的閉環:在云端,DGX超級計算機使用DRIVE Sim生成高保真仿真數據,用于訓練DRIVE AV模型;在車端,Hyperion 10的傳感器數據與Thor芯片無縫對接。
因此,如果一家車企想快速推出具備L4級能力的車型,不需要再分別組建龐大的硬件集成、軟件算法和數據訓練團隊,采用英偉達的整套方案可以快速實現上車。
同時,英偉達也在構建一個“安卓式”的Robotaxi生態,并對外公布了明確的落地時間表:2027年起部署10萬輛Robotaxi。
目前,英偉達已宣布與Uber、奔馳、Stellantis、Lucid等公司合作,共同打造“全球最大L4級自動駕駛車隊”。截至2025年10月,英偉達的云端平臺已積累超過500萬小時的真實道路數據。
英偉達的入場,正在將Robotaxi的競爭從單一的技術比拼,引向生態模式的對決。
封閉模式除了導致重復的研發投入,更深刻的弊端是形成了“數據孤島”。Waymo的美國道路經驗難以惠及中國車企,每個玩家都在獨立而緩慢地跨越技術曲線。
英偉達的開放生態,有機會在確保數據隱私和安全的前提下,推動生態內玩家共享經過匿名化處理的特征數據。例如,A車企在特定路口遇到的極端場景數據,可以轉化為脫敏后的訓練特征,幫助B車企的模型更快地識別類似風險。
如果英偉達能夠成為自動駕駛領域的“安卓”,將有望帶動整個生態的技術迭代速度從線性轉變為指數級提升。這不僅是技術共享,更是成本共擔。共同應對長尾場景這一行業最大難題的邊際成本,將隨著生態的擴大而持續降低。
元戎啟行CEO周光預測,VLA帶來的可能是 “斷層式的領先”,并成為下一代競爭的關鍵變量。
DeepWay深向CTO田山告訴筆者,VLA是目前自動駕駛行業非常火的一項技術,研究者眾多,能極好地提高自動駕駛模型的泛化能力及推理能力,英偉達開源Alpamayo-R1,使得這項很火且很有前途的自動駕駛技術有更多的人可以參與研究并做出貢獻,能積極推進VLA技術的發展和落地,而這項技術也能應用在具身智能等物理AI的場景中。
隱形門檻仍在前方
不過,Alpamayo-R1目前要滿足車規級時延,還需要在RTX A6000 ProBlackwell級別的卡上運行——這張卡的INT8算力高達4000T,是Thor的6倍左右。
英偉達的商業模式決定了,其開源是為了更好地銷售其硬件和全棧解決方案。Alpamayo-R1模型與英偉達的芯片(如Thor)及開發平臺(如Drive)深度綁定,能實現更高的算力利用率。
這意味著,選擇英偉達生態在獲得便利的同時,也意味著在核心算力上與其深度綁定。
另外,DeepWay深向CTO田山向筆者指出,VLA是不是最佳的自動駕駛技術,目前還在實踐過程中,而Alpamayo-R1模型工具鏈基于英偉達的平臺,對很多開發者來說也是一種限制,所以也有很多其他的技術和其他的計算平臺在推進自動駕駛技術發展。
在田山看來,多數公司應該更聚焦技術落地,也就是技術的工程化實現,解決實際場景的問題,早日實現智駕技術的商業化閉環更有益于行業的長久健康發展。
此外,L4自動駕駛的落地或者說Robotaxi的規模化商業化,還與政策與法規息息相關。同時,如何在合規框架內運營、如何通過安全評估、如何在數據利用與隱私保護間取得平衡,這些能力的重要性,并不亞于技術本身。
英偉達的黃仁勛一直將Robotaxi視為“機器人技術的首個商業化應用”,英偉達一直要做的不是一輛無人出租車,而是讓所有玩家都能做出無人出租車的技術底座。如今,他正試圖通過開源VLA,為這個應用打造一條可以快速復制的生產線。
但最終能否通過開源降低準入門檻,加速推動L4自動駕駛到來,讓技術的潮水涌向更廣闊的商業海岸,英偉達Alpamayo-R1模型的開源,只是游戲的開始,后面還有門檻要邁,還需要市場來驗證。(文|敏行,作者|張敏,編輯|李程程)





京公網安備 11011402013531號