毫無疑問,智能駕駛已然成為一眾車企競爭的最前沿。
這是個派系林立的領(lǐng)域:車企們觀點各不相同,各燒各的錢,各走各的路,各自承擔(dān)各的后果。
理想,也加入了這場戰(zhàn)爭中,并且誓要進入智能駕駛第一梯隊。去年的秋季戰(zhàn)略會上,理想汽車董事長兼CEO李想宣布,“2024年要成為智駕的絕對頭部”。
10月23日起,理想汽車全新一代智能駕駛技術(shù)架構(gòu)端到端+VLM系統(tǒng)正式全量推送。
是什么樣的技術(shù),給予了理想這般底氣?
One Model 端到端,駕駛媲美“老司機”
借鑒諾貝爾獎獲得者丹尼爾·卡尼曼在《思考,快與慢》中的“快慢系統(tǒng)”理論,理想推出了“端到端+VLM(視覺語言模型,Vision-Language Model)”的智駕雙系統(tǒng)。
端到端模型就是快系統(tǒng),有日常駕駛場景里快速處理信息的能力;VLM 則是慢系統(tǒng),有面對復(fù)雜場景的邏輯思考能力。
套用到自動駕駛上,即輸入是傳感器,輸出是行駛軌跡,全部由一個模型實現(xiàn),中間沒有任何需要人來設(shè)定的規(guī)則。
理想“摸著石頭過河”,從研發(fā)開始到最終使用“端到端”,經(jīng)歷了三個階段。
第一個階段,理想嘗試使用將高速NOA(Navigate on Autopilot, 自動導(dǎo)航駕駛)遷移到城市NOA上,但發(fā)現(xiàn)這種方案與地圖的綁定嚴(yán)重,十分依賴地圖的迭代更新;
第二個階段,理想嘗試使用NPN(Neural Prior Net,先驗神經(jīng)算法),只使用部分道路和地圖的先驗信息,幫助車輛識別道路特征,但發(fā)現(xiàn)這種方法只適用于車多的大城市,車少的小城市不行;
第三個階段,理想嘗試使用無圖方案,大量加入規(guī)則,但發(fā)現(xiàn)規(guī)則永遠存在泛化能力的問題,無法窮盡駕駛的所有情況。
到這一步,理想終于迎來了它的“尤里卡時刻”——端到端大模型上車。
但怎么才能讓端到端大模型擁有“老司機”一樣的駕駛能力?答案是喂給他老司機的駕駛數(shù)據(jù)。“模型具備的能力完全來自于你給他什么數(shù)據(jù)。沒有數(shù)據(jù),模型只是一堆參數(shù)而已”。
為此,理想對數(shù)據(jù)質(zhì)量嚴(yán)格把關(guān),首先篩選出了80萬車主,又從這80萬里篩選出3%的車主的總共22億公里的數(shù)據(jù),最后才喂給大模型,才讓大模型擁有像“老司機”一樣的駕駛能力,實現(xiàn)像人一樣思考,像人一樣駕駛。
事實證明,這種方式卓有成效。實測顯示,理想智駕在路邊起步只需P檔激活,上車就開,而且在環(huán)島通行、擁堵路況、復(fù)雜路口等場景,體驗都優(yōu)于華為。

在VLM上,理想主要分“視覺”和“語言”兩個模塊進行部署。
視覺部分需要搞定兩個模塊,第一是記憶模塊,需要系統(tǒng)把自動駕駛中“看”到的視頻存下來,這樣在推理過程中無需重復(fù)觀察;第二是“算子融合”,理想和英偉達在最新的版本上進行相互融合,研發(fā)出一個算子,提升了系統(tǒng)的性能。
記憶部分同樣需要搞定兩個模塊。首先,理想團隊將偵查模型從之前兩個16位的字節(jié)壓縮成只有4個字節(jié),提升傳輸速度;其次是“投機采樣”,讓大語言模型在投機采樣說出一個詞后,可以通過聯(lián)想說出更多的詞。
實測證明,理想的VLM取得了良好的成果。最突出的一點是VLM可以識別出各種路牌,比如能輕松識別路牌限行信息文字、可通行和禁行的狀態(tài)標(biāo)識、學(xué)校路牌的中文信息等,這些都是理想在行業(yè)里的獨有能力。

考試考多了,大模型也就聰明了
除了系統(tǒng)一和系統(tǒng)二外,理想的自動駕駛方案中還有個系統(tǒng)三:世界模型,理想把“世界模型”比喻成“考官”,專門考核系統(tǒng)一和系統(tǒng)二的安全性。
世界模型由三個題庫組成:
真題庫,即人在路上駕駛時的正確行為;
錯題庫,即人在路上駕駛時的錯誤行為;
模擬題,利用 diffusion transformer 的生成模型,生成沒有見過的全新場景,比如馬路上行人突然切入、下雨天路面濕滑的場景等。

理想提到,每次模型的發(fā)布之前,都會讓模型把過去的錯題做一遍,而錯題庫的公里數(shù)高達一千多萬公里。除了做錯題,模型還會做幾千萬個生成的模擬題測試。
做完模擬題后,看系統(tǒng)考多少分,“那個模型76分,這個模型83分,那83分的模型理論上就更強大,然后我們再去后面的應(yīng)用”,這是完全自動化的一個過程,背后是理想根據(jù)用戶需求出發(fā),力求帶來更好的產(chǎn)品體驗的理念。

自動駕駛方案的最優(yōu)解
實踐證明,理想的雙系統(tǒng)智駕方案體現(xiàn)出了獨特的優(yōu)勢。
理想的系統(tǒng)一,踐行的是純粹的“One Model”端到端,“中間的感知模塊都融入到一個模型里面去了”。而業(yè)內(nèi)其他友商的端到端大模型,依然是分段構(gòu)成的。
分段式端到端依然沒有擺脫傳統(tǒng)方案的范疇,盡管感知與規(guī)劃都實現(xiàn)了神經(jīng)網(wǎng)絡(luò)化,但連接神經(jīng)網(wǎng)絡(luò)的依然是人類定義的接口,這意味著損失,以及大量人工標(biāo)注,整個流程不利于全局最優(yōu),也不利于自動化。
而純粹的“One Model”端到端,信息能無損傳遞,數(shù)據(jù)流轉(zhuǎn)的自動化程度更高,并且“它具備的能力完全來自于你給他什么樣的數(shù)據(jù)”——只要提供足夠好的數(shù)據(jù),系統(tǒng)就能通過學(xué)習(xí)獲得像“老司機”一樣的駕駛能力。
理想認(rèn)為,如果想做更高級別的L3、L4的自動駕駛的話,One Model端到端是最佳方式,因為它不但是選擇了這個模型本身,更多是選擇了一種更高級的迭代或者研發(fā)的流程或方式。
可以舉一個例子體現(xiàn)有無系統(tǒng)二的區(qū)別:像小鵬和華為,他們能識別出高速公路上收費站的ETC,是因為提前建好了地圖。但VLM不需要,全國任何一個高速路收費站,VLM都能提前為用戶指出來哪里是人工車道,哪里是ETC。
這就是因為系統(tǒng)二讓大模型擁有了像人類一樣的邏輯推理能力和泛化能力。

結(jié)語
在“蔚小理”中,理想是自研智能駕駛最晚的那個,但卻在今年迅速從NPN切到無圖NOA,再到端到端,并在今天開啟全量推送,不免引人驚喜:一個后進生,怎么提前交卷了?
而這張卷理想答得怎么樣,用戶今天就可以體驗到了。





京公網(wǎng)安備 11011402013531號