![]()
郎咸朋完整回顧理想智駕團隊發(fā)展演變歷程,首次回應(yīng)外界對 VLA 的質(zhì)疑。
文丨趙宇
編輯丨龔方毅 黃俊杰
42 歲之前,郎咸朋從不抽煙,但在去年夏天理想研發(fā) “端到端” 智駕方案期間,他每個工作日都得來上兩根。
“之前華為、特斯拉在前面,我們照著追就行。追平之后再往前走,方向怎么選、能否執(zhí)行好,沒有樣本可以參考。” 郎咸朋告訴我們。
理想智駕自研起步晚,2019 年團隊還沒成建制,缺少資源。為了做技術(shù)預(yù)研,郎咸朋和團隊一度只能把激光雷達裝在那些已做完碰撞測試的車上。
追趕過程中,郎咸朋提出 “不可能用華為的方式打敗華為”,必須提前研發(fā)下一代技術(shù)。他促成了智駕自研進程中的兩個重要決定:去年轉(zhuǎn)向 “端到端”,讓理想躋身智駕第一梯隊;今年,他們選擇做 VLA(視覺-語言-行動模型),爭取成為沒有爭議的第一。
取得進展的同時,理想智駕團隊的內(nèi)部動蕩與外部質(zhì)疑始終存在,最近交付 VLA 時尤其如此。VLA 使用多模態(tài) AI 大模型提升駕乘體驗,強調(diào)讓自動駕駛系統(tǒng)擁有類似人類的 “思考” 能力,而非單純模仿駕駛行為。
華為車 BU CEO 靳玉志稱 VLA 看似取巧但無法真正走向自動駕駛;博世智駕中國區(qū)負責(zé)人吳永橋則認為 VLA 落地有諸多難以解決的問題。
國慶節(jié)前的倒數(shù)第二個工作日,我們在理想北京研發(fā)總部見到郎咸朋。提及這些評論,郎咸朋表示:他們反對 VLA,恰恰說明 VLA 是正確的。
技術(shù)的演進常伴隨爭議,而最終消解爭議的仍是產(chǎn)品本身。郎咸朋認為,相比有監(jiān)督訓(xùn)練的 “端到端”,無監(jiān)督訓(xùn)練的 VLA 迭代效率更高,最晚到明年初,外界就能看到明顯提升。
相比我們此前兩次交流(一年前推出 “端到端” 方案,以及兩個月前 VLA 臨近落地),郎咸朋這次更松弛一些,近三個小時的談話中,他語速平穩(wěn)、聲音輕快。談及理想智駕的進展和技術(shù)選擇,他的用詞也更篤定。
見面前不久,理想智駕團隊又經(jīng)歷了新一輪架構(gòu)調(diào)整和人員變動。這個 2018 年成立的團隊已經(jīng)換了三代骨干。作為理想智駕第一號員工,郎咸朋向我們完整回顧了團隊的發(fā)展演變歷程,他加入理想以來的工作理念和方法,并首次回應(yīng)了外界對理想新技術(shù)的質(zhì)疑。
以下是訪談及少量追加問答的主要內(nèi)容,經(jīng)編輯。灰色引用模塊則是我們做的信息補充:
不可能用華為的方式打敗華為
9 月 19 日,理想汽車調(diào)整自動駕駛研發(fā)部門組織架構(gòu),將整個團隊重組為 11 個二級部門。
原模型算法團隊拆分為基礎(chǔ)模型部、VLA 模型部和模型工程部;原量產(chǎn)研發(fā)團隊拆分為量產(chǎn)交付部、軟件研發(fā)部和主動安全部;原數(shù)據(jù)閉環(huán)團隊拆分為數(shù)據(jù)平臺部和數(shù)據(jù)標注部;原有的規(guī)劃管理部、AI 評測與運營部保留,并新增創(chuàng)新業(yè)務(wù)部。
調(diào)整后,理想智駕團隊的組織架構(gòu)更為扁平,11 個新部門負責(zé)人均直接向郎咸朋匯報。郎咸朋在內(nèi)部信中稱,此次調(diào)整的目的是推動團隊向 AI 組織演進。此外,過往在一級部門層面多次采用的大規(guī)模封閉研發(fā)模式將被取消。
晚點:不久前,你重組理想智駕部門,還說要 “組建面向 AI 的團隊”,這應(yīng)該怎么理解?
郎咸朋:AI 最大的特點就是充滿不確定性,這跟過去造車完全不一樣。打造面向 AI 的組織,第一是信息傳遞和決策要非常高效,組織越扁平,越有利于這件事發(fā)生。我們原來有 4-5 個二級部門,現(xiàn)在變成 11 個,我跟這些人之間溝通很順暢,決策也很快。
第二是部門 Leader 要懂業(yè)務(wù)、懂管理,最好還要做過技術(shù)。我們現(xiàn)在的二級部門負責(zé)人都是之前做過業(yè)務(wù)的人,不是純管理出身。
他們都曾經(jīng)把業(yè)務(wù)做得比較好,既知道我們原來怎么做,也知道現(xiàn)在應(yīng)該做什么。我們智駕的核心管理者一定是從內(nèi)部培養(yǎng)起來的。當(dāng)然,做 Research、搞算法研究,可以從外面找一些前沿科學(xué)家。
晚點:擔(dān)心團隊里的核心骨干被其他廠商挖走嗎?
郎咸朋:人員正常流動是合理的,但我們最終的護城河不是某一個人,也不是某一個模型,而是整個業(yè)務(wù)體系。特斯拉自動駕駛部門走的人也不少,從頭到尾都走了一遍,但也沒說特斯拉自動駕駛從此就不行了。
晚點:你宣布取消集中的封閉研發(fā),這是為什么?
郎咸朋:主要有兩方面考慮。
第一,時代背景變了。之前我們是追趕者,有明確目標,大家必須集中趕工。現(xiàn)在不是靠趕工就能趕出跨越式技術(shù),而是需要各部門發(fā)揮自己的業(yè)務(wù)專長,共同為目標努力。
第二,這也體現(xiàn)了我們對員工的關(guān)懷。我們之前其實不是不考慮員工感受,而是在立足未穩(wěn)時,確實需要用那種方式追進度,但我們不想造成一種 “拼命壓榨大家時間” 的感覺。當(dāng)然,我們對大家的要求也變了——之前要求快速、按時、高質(zhì)量交付,現(xiàn)在要求所有人真正把能力建設(shè)起來。
理想汽車的智駕團隊有時會進入一種 “封閉沖刺” 狀態(tài)。為了按時交付項目,工程師們被集中到少數(shù)幾個辦公室,統(tǒng)一住進附近酒店,連續(xù)三五個月高強度工作。加班常態(tài)化,周日也要保持待命。
這樣的節(jié)奏可能一輪接一輪。通勤 NOA 和城市無圖 NOA 兩個項目,都是在這種連續(xù)封閉開發(fā)中完成的。
晚點:為什么自動駕駛開發(fā)的節(jié)奏要這么快?
郎咸朋:我們 2021 年交付自研項目時,前后兩個階段連軸轉(zhuǎn),確實比較辛苦。當(dāng)時第一階段是從 2021 年 2 月 26 號到 5 月 26 號,需要交付基礎(chǔ) ADAS(基礎(chǔ)輔助駕駛);第二階段是從 6 月份到 12 月 10 號,需要交付高速 NOA(導(dǎo)航輔助駕駛)。
我們當(dāng)時要求每天全員到崗,不是說有一部分人來就行。第二階段的一個周末,大家商量好第二天休息,我同意了,但前提是當(dāng)天問題要全部解決,結(jié)果到夜里我發(fā)現(xiàn)還有兩三個沒解決,但基本上 90% 的人都走了,就讓項目經(jīng)理挨個打電話,通知所有人回來加班。這些人一邊罵著我,一邊就回來了,我陪他們一起。
晚點:后來加班到幾點?
郎咸朋:到凌晨三四點才結(jié)束,第二天上午還得接著測試。這樣的事很多。今年 3 月 “端到端” 1000 萬 Clips 版本上線時,我們用 “超級對齊” 解決安全性問題。最后效果非常好,但這個過程非常痛苦。我要求核心負責(zé)人每天早晨 8 點在順義開晨會,很多人前一晚都是零點前后才回去,第二天早上 7 點多就又得從市區(qū)趕過來,這樣持續(xù)了兩三個月。
晚點:這種強度是被 “軍令狀” 逼出來的?
郎咸朋:那是我自己定的目標。比如去年端到端必須交付,不交付就不行。想哥(理想汽車創(chuàng)始人兼 CEO 李想)只是說,“郎博,我們得想辦法解決現(xiàn)在的問題。”
在端到端之前,我們打不過華為,規(guī)則方案改了半天也不行,體驗頂多持平,甚至還比人家差。想哥也跟我說,從某種角度上講,就算你跟華為做得一模一樣,大家也會覺得華為更好,改變用戶心智是很難的。你得明顯好于現(xiàn)有的東西,新市場才能打破舊市場。
晚點:只有這一條路嗎?
郎咸朋:我們作為一家后進入市場的公司,不能在別人已經(jīng)開辟的戰(zhàn)場里打這場仗,那樣一定會輸。你要開辟一個新戰(zhàn)場。如果我們當(dāng)初不是選擇服務(wù)多孩家庭這個被忽視的用戶群體,技術(shù)路線上沒有選擇增程,而是做純電或者燃油車,肯定打不過頭部玩家。所以要開辟一個新的戰(zhàn)場叫增程,我們自己來定義這個增程產(chǎn)品的 PMF(產(chǎn)品市場匹配)。
這樣做,我們就有了獲勝的可能性,但也只是可能性,要堅持執(zhí)行戰(zhàn)略才能最終獲勝。自動駕駛也一樣,在規(guī)則時代,我們的戰(zhàn)略是跟著大勢走,優(yōu)先按時交付產(chǎn)品、跟上市場的主流。所以,我們 2021 年推基礎(chǔ) ADAS、高速 NOA,第一梯隊有的我們基本也有,至少下限保持住了。
到 2023 年,目標變成進入第一梯隊。那時我們有兩個選擇:在原有高精地圖的基礎(chǔ)上繼續(xù)優(yōu)化高速體驗,或者把服務(wù)范圍擴展到城市。想哥最后決定做城市 NOA,因為只有那樣,用戶心智上才會覺得理想在第一梯隊。
當(dāng)時第一梯隊的同行陸續(xù)官宣 “開城” 進度和目標,我們也在 2023 年上海車展宣布要開 100 座城市。剩下的就是執(zhí)行層面的事情了,但過程非常痛苦。那時方案還是輕圖,至少得有點道路的結(jié)構(gòu)信息,所以有了 “天津兩條路”(2023 年底,理想推送城市 NOA 功能,但在部分城市限制開放范圍,如天津僅開放銷售門店附近的兩條路)。后來升級到無圖方案,雖然覆蓋更廣,但體驗又不如華為。
其實到那個時候,我們就有要做第一的想法了。
晚點:“那個時候” 具體是什么時候?
郎咸朋:2023 年底、2024 年初,當(dāng)時公司狀態(tài)比較好,自動駕駛能力實際上已經(jīng)在第一梯隊,但距離大家承認理想是第一梯隊還有過程。
想哥當(dāng)時說,我們現(xiàn)在資源夠了——車賣得夠多,利潤也到位——接下來就是要打智能化,而智能化首先就是智能輔助駕駛,要比華為有顯著的能力和體驗提升,說 “2024 年,郎博你一定得做到這一點”。
我告訴他,我們不可能用華為的方式打敗華為,得有技術(shù)上的代際提升。于是我們上端到端,但那時大家都不太理解端到端,也不知道端到端最后帶來的體驗會是什么樣。而且在沒做出來之前,其實我們也沒法明確說它到底是什么樣。
但是從戰(zhàn)略角度講,做了不一定行,不做肯定不行。一直到去年下半年開始出成果。再后面的事情大家都知道了。
晚點:有一種聲音說你們運氣好。
郎咸朋:這不是運氣問題。其實我們是順著戰(zhàn)略大勢做端到端,因為我們不可能用規(guī)則打敗華為,要選新的技術(shù)路線。同樣的,今天端到端正從新市場變成舊市場,如果我們想做真正的自動駕駛,成為這個領(lǐng)域的第一,就不能繼續(xù)在這個戰(zhàn)場打,還得再換一個戰(zhàn)場,那就是 VLA。
從今年初我們在英偉達 GTC 大會上宣布做 VLA 開始,一直到現(xiàn)在,至少在業(yè)界心目中,VLA 理想是第一個提、第一個交付、第一個迭代的。輿論聲場比端到端時期先交付再宣發(fā)好不少。
晚點:攻擂和守擂,哪個壓力更大?
郎咸朋:攻的時候目標非常明確,因為前面有人。他在做有圖、無圖或輕圖,我們只要跟著去做就好。攻擂時,更多考驗執(zhí)行能力;守擂時,對綜合的戰(zhàn)略和執(zhí)行能力都是很大考驗。好像都挺難的。
晚點:你們是在什么時候明確意識到,端到端模仿學(xué)習(xí)存在天花板的?
郎咸朋:今年春節(jié),正好在端到端 1000 萬 Clips 版本上線前后。端到端有幾個比較大的問題:跟著慢車不繞行,復(fù)雜路口紅綠燈看不懂,跟人類駕駛行為不一樣——該超不超、該讓不讓。因為我們當(dāng)時提供的數(shù)據(jù)里沒有這樣的場景。
這事是想哥先提出來的。今年 2 月底,他說要加快交付 VLA,不能繼續(xù)在這條路往上走,因為不管是用端到端做數(shù)據(jù)驅(qū)動,還是用超級對齊做算法優(yōu)化,本質(zhì)上系統(tǒng)還是沒有人類的智能和思考能力。而我們的目標是做 L4 級自動駕駛。
晚點:當(dāng)時有什么即時調(diào)整嗎?
郎咸朋:想哥說業(yè)務(wù)要調(diào)整,連帶著人和資源也要調(diào)整。我知道他要什么,所以盡管當(dāng)時還沒調(diào)組織架構(gòu),但資源已開始向 VLA 傾斜,加速 VLA 的研發(fā)和交付。
這也是想哥和我有默契、信任的基礎(chǔ)。一切就倒回到 2019 年,那年我跟想哥在認知系統(tǒng)這塊聊得非常多,經(jīng)常討論想法。我現(xiàn)在有這樣的判斷,就是源于當(dāng)時認知體系的升級。
有人反對 VLA,恰恰說明它是正確的
晚點:理想自研智駕此前的六個重要項目都有代號,VLA 的代號是什么?
郎咸朋:斯芬克斯,也就是獅身人面像。傳說中它會問過路人一個謎語,答對放行,答錯吃掉。謎語是,什么東西早上四條腿,中午兩條腿,晚上三條腿?答案是人。人出生時四條腿爬,成年后兩條腿走,晚年時拄拐棍三條腿走。
斯芬克斯是一個獅身人面像趴在一個大底座上。所以說斯芬克斯項目成功要有一個基座,對應(yīng)著我們的基座模型;腿的英文是什么?Leg,L4、L2、L3,我們就是要解決自動駕駛 L234 的問題。
這些都是梗,主要是我們在做 VLA 時,覺得它既是一個謎題,就像斯芬克斯里面出的謎語一樣,同時還有很多未知和不確定性。
今年 3 月理想發(fā)布 VLA 技術(shù)后,競爭對手和行業(yè)觀察者在落地可行性、技術(shù)路線選擇等方面提出不同看法。
博世智能駕駛與控制系統(tǒng)事業(yè)部(XC)中國區(qū)總裁吳永橋認為,VLA 落地有四個難點:多模態(tài)的特征對齊非常困難;多模態(tài)的數(shù)據(jù)訓(xùn)練和提取更加困難;大語言模型存在無法避免的 “幻覺” 缺陷;當(dāng)前所有智駕芯片的存儲帶寬都比較低,并非為大模型專屬設(shè)計。
華為智能汽車解決方案 BU CEO 靳玉志稱,華為不會走向 VLA 的路徑,而是更看重 WA(World Action)路徑。他認為,VLA 將視頻轉(zhuǎn)化為語言 token 再控制車輛的做法是 “取巧”,而華為采用 WA 方案,省掉語言環(huán)節(jié),通過視覺、聲音、觸覺等多模態(tài)信息直接控車。雖然挑戰(zhàn)更大,但這才是真正通向自動駕駛的方案。
晚點:最近,博世的吳永橋、華為的靳玉志都對 VLA 提出不同意見,甚至質(zhì)疑。對此你有什么回應(yīng)?
郎咸朋:第一是多模態(tài)對齊。據(jù)了解,博世不自研基座模型,也幾乎沒做過大模型相關(guān)工作。但我們成立了基座模型研發(fā)團隊,智駕團隊之前做 VLM 時也做過視頻和文本的多模態(tài)對齊,這方面能力我們已經(jīng)積累很多。這確實有難度,但難才有技術(shù)含量,對我們來說不是問題。
第二是數(shù)據(jù)訓(xùn)練和提取。博世自己的數(shù)據(jù)量不大,但不能簡單認為我們也沒有很多數(shù)據(jù)。我們摟著采,到現(xiàn)在還有十幾億公里的數(shù)據(jù)。
第三是大語言模型的幻覺。不能完全站在生成式數(shù)據(jù)角度來考慮,生成圖像、文本。之前模型技術(shù)不成熟時,可能有問題,比如生成一個人多了根手指頭,或者生成一段文字驢唇不對馬嘴。但隨著模型這幾年不斷迭代,幻覺越來越少。而且我們有強化學(xué)習(xí)、有超級對齊,有辦法解決模型幻覺。我們不是用它生成一些非常泛的東西,就是用來生成駕駛領(lǐng)域的決策和推理結(jié)論。這些比較確定,不會出現(xiàn) “你在直行突然讓你掉頭” 這種幻覺。
靳總說的也同理。我們已經(jīng)做完端到端,過程中發(fā)現(xiàn) corner case 的數(shù)據(jù)收集,最重要的是數(shù)據(jù)分布和數(shù)據(jù)質(zhì)量。現(xiàn)在就是 corner case 分布不均衡,收集數(shù)據(jù)困難,確實挑戰(zhàn)很大。即使有很多數(shù)據(jù),也不可能窮盡世界上所有場景。必須讓系統(tǒng)有人類這種思維推理能力才可以,簡單泛化不行。
他們反對 VLA,恰恰說明 VLA 是正確的。出于市場競爭和技術(shù)演進的考慮,在 VLA 和端到端上線初期,我們首先要保證它們在安全性的維度上做得不差,之后再去逐步提高上限。
我們 VLA 的能力現(xiàn)在還沒有完全發(fā)揮出來,到今年底、明年初,大家就能看到一些非常好的表現(xiàn),用戶會覺得這輛車真的活了。強化閉環(huán)如果形成,今天車在這個地方還不會開,明天就能開得很好。
晚點:強化閉環(huán)形成對你們意味著什么?
郎咸朋:大家都在說這事情,但你不到 VLA、不實現(xiàn)強化閉環(huán)的話,你是沒有這個能力的。就跟你做端到端一樣,之前馬斯克也說過 "Video in, control out",這個思路很好,但沒有人真正實現(xiàn)。
我們現(xiàn)在有機會把它實現(xiàn),實現(xiàn)之后用戶才能真正覺得,這個車在安全穩(wěn)定的前提下,竟然有一些新的、別的車無法企及的能力出來。等到用戶真覺得哇塞、用起來真的很舒服的時候,他們就不會再出來說世界模型不行、VLA 不行了。
晚點:看起來,VLA 的強化學(xué)習(xí)閉環(huán)對你們來說很重要,但 Andrej Karpathy(特斯拉前 AI 總監(jiān))近期說,“人類并不是通過強化學(xué)習(xí)來學(xué)習(xí)的,強化學(xué)習(xí)其實比大多數(shù)人想象的要糟糕得多。它依賴稀疏獎勵信號,樣本效率極低,缺乏因果理解能力。” 你們?nèi)绾卧u價這種觀點?
郎咸朋:Andrej Karpathy 對強化學(xué)習(xí)的批評更多是針對當(dāng)下算法的局限性,而非對這種范式本身的否定。
模仿學(xué)習(xí)推動了 GPT 類模型的成功,強化學(xué)習(xí)則造就了如 R1、o1 這樣的強推理模型——這兩條路徑都是 “The Bitter Lesson” 的體現(xiàn):算力與數(shù)據(jù)驅(qū)動的通用學(xué)習(xí)往往優(yōu)于人工規(guī)則。
我們認為,目前的強化學(xué)習(xí)是比模仿學(xué)習(xí)更接近人類學(xué)習(xí)的終極形式。未來我們會持續(xù)迭代更高效、更具因果理解與泛化能力的學(xué)習(xí)方法。
晚點:理想 OTA 8.0 版本我們體驗下來,感覺橫向控制比端到端最后一個版本更靈活,但縱向控制會保守一些。
郎咸朋:因為我們做了很多安全限制,說白了就是怕刮蹭甚至撞車。我們有一些橫向表現(xiàn)很驚艷,特別是內(nèi)測第一版 VLA 非常靈活,橫縱向都很好,但如果后車不注意,還是有風(fēng)險。而一旦出事故,可能被外界借勢否定 VLA,那我們后邊就全完了。
所以,我現(xiàn)在寧可讓大家說我們慫一點、慢一點,但至少沒有太明顯的缺陷和漏洞。在這個基礎(chǔ)上,我們現(xiàn)在致力于打造訓(xùn)練的強化閉環(huán)。這個閉環(huán)今年底前應(yīng)該能搭出來,到時候用戶會覺得這個車真的 “活” 了,就像一個每天在成長的人,不再需要用戶一個個問題去反饋。
我相信我們能第一個做到。
晚點:理想原計劃 9 月底更新的 VLA 新版本沒有推送,聽說行業(yè)主管部門開始限制智駕軟件 OTA 的頻率。這會對你們造成什么影響?
郎咸朋:確實,近期行業(yè)主管部門對智駕 OTA 更新的頻率提出了新的規(guī)范,我們已與相關(guān)部門完成溝通和流程優(yōu)化。我們認為,這個做法的目的是強化以用戶安全和質(zhì)量為前提交付智能駕駛產(chǎn)品,對行業(yè)長期健康發(fā)展有很大好處。
這一調(diào)整對理想智駕研發(fā)和用戶體驗不會有影響。我們會繼續(xù)在合規(guī)前提下保持技術(shù)快速演進,確保每個季度都能為用戶帶來高質(zhì)量、實質(zhì)性的功能升級與體驗提升。
晚點:你覺得 VLA 就是實現(xiàn) L4 的那條路嗎,還是需要更新的技術(shù)?
郎咸朋:目前我認為 VLA 可以實現(xiàn) L4,但以后一定還會有新技術(shù)出來。開車這件事并不需要很復(fù)雜的技術(shù)或很高的智商,一般人都能學(xué)會開車,所以 VLA 夠用。但技術(shù)本身會持續(xù)迭代,比如將來人工智能發(fā)展到讓每個人都像愛因斯坦或各領(lǐng)域?qū)<夷菢樱切枰?VLA 更高級的技術(shù)才能實現(xiàn)。
與 VLA 模型類似的一個概念是世界模型,對于這兩者之間的關(guān)系,業(yè)內(nèi)有不同說法。
蔚來智能駕駛研發(fā)副總裁任少卿告訴我們,VLA 本質(zhì)上還是語言模型的模態(tài)擴展:LLM(Large Language Model)只包含語言,VLM(Vision Language Model)加上了視覺,VLA(Vision Language Action)再加上了動作。這些擴展雖然加入了新模態(tài),但 “根” 依然在語言模型上。蔚來世界模型不是 “語言加法”,而是要建立一套高帶寬的認知系統(tǒng)。
而在任少卿看來,只有讓語言模型和世界模型兩者融合,才能形成真正的通用人工智能(AGI)。
晚點:除了理想,蔚來、小鵬等廠商也都在提世界模型,但似乎每家廠商說的世界模型不是一個意思。比如,任少卿說蔚來世界模型的目標是建立基于視頻 / 圖像的 “時空認知”,補齊語言模型的短板。對此你怎么看?
郎咸朋:蔚來的世界模型最終要跑在端側(cè),這不太合理。就跟人一樣,我不用非得動用所有大腦知識去開車。實際上技術(shù)架構(gòu)還在演進當(dāng)中。他這樣說是便于大家理解:你看 LLM 只有 L,VLM 多了個 V,VLA 多了個 A,但我一個 WM(World Model) 能一統(tǒng)天下。
本質(zhì)上,理想汽車的世界模型模仿的就是世界,我們想生成這個世界的所有場景,世界模型是為 VLA 模型服務(wù)的。當(dāng)然,VLA 只是一個代號,這個模型首先能看懂視覺的輸入,然后有自我推理和思維的能力,并且能產(chǎn)生相應(yīng)的動作,就跟人一樣。不管叫 VLA 還是 ABC,它就是干這個事的。
我們?yōu)槭裁催€有世界模型?因為強化訓(xùn)練 VLA 模型時,需要有個環(huán)境,我必須有一個強化訓(xùn)練的閉環(huán)。閉環(huán)的前提是有一個虛擬的仿真世界,然后車在里邊跑。我們的世界模型是干這個的,它是支撐 VLA 模型的閉環(huán)仿真訓(xùn)練用的。
至于任少卿說的世界模型,跟我們 VLA 模型是一個 Level 的,他說的還是模型本身。我們說的世界模型,則是強化訓(xùn)練閉環(huán)的重要基礎(chǔ)。而華為的那個 W Engine,有點像我們說的世界模型。
晚點:楊立昆(Yann LeCun,meta 首席人工智能科學(xué)家)提出,世界模型并不只是 “感知” 和 “反應(yīng)”,而是構(gòu)建出一個可以想象未來的世界副本。這與你們理解的世界模型意思相同嗎?
郎咸朋:Yann LeCun 和我們對世界模型的理解是一致的,即智能體通過理解當(dāng)前世界、結(jié)合過往經(jīng)驗和行動計劃,去推測未來的可能狀態(tài)。
我們也認為,真正的世界模型不只是 “感知” 與 “反應(yīng)”,不是一個簡單的端到端的狀態(tài),而是要在內(nèi)部形成對外部世界的可預(yù)測表征,能夠想象并評估未來的狀態(tài),從而指導(dǎo)合理的反饋與動作。這一理念正是我們的世界模型做的事情:不僅能生成各種場景用于對 VLA 模型的評測,更可以具備對未來行為的反饋和建議,從而進行強化訓(xùn)練。
晚點:世界模型是不是對云端算力的需求很大?
郎咸朋:非常大。
晚點:華為不久前發(fā)微博,說他們的云端算力有 45 EFLOPS,還是挺讓人吃驚的。相比之前的公開數(shù)據(jù),已經(jīng)提升 2 倍以上。
郎咸朋:差不多。
晚點:真有必要建這么大的云端算力嗎?
郎咸朋:華為沒有解釋這個數(shù)字背后的事情。云端算力分兩塊,推理和訓(xùn)練。VLA 模型需要訓(xùn)練算力,世界模型本身也需要訓(xùn)練算力。我們用世界模型生成各種各樣的仿真環(huán)境,還需要大量推理算力。這些算力加在一起是我們的云端算力。現(xiàn)在理想是 10 EFLOPS 的訓(xùn)練算力,加 3 EFLOPS 的推理算力。將來推理訓(xùn)練還會繼續(xù)增加。
晚點:推理算力會超過訓(xùn)練算力嗎?
郎咸朋:現(xiàn)在看起來,一半一半是合理的。
晚點:理想今年在云端算力上的投入大概是多少?
郎咸朋:現(xiàn)在還在迭代當(dāng)中,沒有最終定數(shù),因為我們現(xiàn)在的訓(xùn)練閉環(huán)還沒有完全閉上。但我們在算力方面投入不設(shè)限。
晚點:去年的云端算力一共投了多少錢?
郎咸朋:8 EFLOPS,差不多在 10 億元人民幣量級。
晚點:理想 VLA 車端模型的參數(shù)量是 4B,云端模型呢?
郎咸朋:我們最終會做成 32B,現(xiàn)在正在做。我們希望云端模型的參數(shù)量也別太大,比方我做個 320B 的模型,再把它蒸餾成 4B,那蒸餾成啥了?
晚點:所以智駕的云端模型和大語言模型還不太一樣,據(jù)說 GPT-3 的參數(shù)量大約是 1750 億。
郎咸朋:對,那個就更夸張了。我們目前覺得不需要那么大的模型,當(dāng)然這個也還在不停地摸索和迭代當(dāng)中。
晚點:有同行說,VLA 在現(xiàn)有智駕芯片上落地有難度。
郎咸朋:現(xiàn)在的智駕芯片確實都不是為大模型專門設(shè)計。我們是通過工程優(yōu)化能力把 VLA 模型部署到非大模型定制的芯片上。而理想的自研智駕芯片完全按照 AI 要求去做,包括算子優(yōu)化和模型部署優(yōu)化,這些在芯片設(shè)計之初就已經(jīng)考慮到,并且可以根據(jù)自身需求定制一些東西。模型參數(shù)量可能現(xiàn)在還不是特別多,但芯片可擴展,幾顆芯片并在一起能擴大參數(shù)量。一顆不行,我們用兩顆。
晚點:在自動駕駛領(lǐng)域,特斯拉最先把 “端到端” 這個概念講出來。馬斯克在特斯拉 2023 年股東大會上說,"Video in, control out",當(dāng)時看來非常超前。
郎咸朋:的確。端到端之后,我們要做的就是把 VLA 真正打磨好,保持用戶體驗領(lǐng)先。我們相信這個技術(shù)肯定可以,只是還需要一些時間在交付線上驗證。
除了交付線,還有能力線。在端到端之前,我們花了很長時間建設(shè)數(shù)據(jù)閉環(huán)能力,但這有個條件——你真得有那么多數(shù)據(jù),所以只有等我們賣出幾十萬臺車之后,閉環(huán)的速度才會越來越快。
2021 年之前,我們?nèi)繑?shù)據(jù)量加起來不到 1 億公里,但后面每年幾億、幾億的往上走。去年我們有意往下壓了壓,只挑選最核心的高質(zhì)量數(shù)據(jù)。如果我們?nèi)ツ旮郧耙?guī)則時代一樣放開采數(shù)據(jù),今年至少是 20 億公里。
不過后來我們也迭代了,不再需要 100 億公里,只需要十幾億公里高質(zhì)量數(shù)據(jù)就夠,然后用這些數(shù)據(jù)去訓(xùn)練世界模型,讓它產(chǎn)生更多數(shù)據(jù)。我們之前的認知還停留在端到端、模仿學(xué)習(xí)——有多少數(shù)據(jù)進來訓(xùn)練,出什么樣的結(jié)果。但這樣也不行,因為有些 corner case 的數(shù)據(jù)采不到,或者采回來的數(shù)據(jù)量很少。一些碰撞事故也不可能天天自己拿車去撞、去采,這不合理。
再說這也不是終局,終局會是一個強化訓(xùn)練閉環(huán)。關(guān)于這個閉環(huán),這陣子我跟團隊交流,我發(fā)現(xiàn)大家可能都想得有點狹隘。
晚點:哪里狹隘?
郎咸朋:我先拿端到端舉例,你說端到端是個技術(shù)嗎?它是個技術(shù)更新,但它更大的一個顛覆,實際上是對自動駕駛業(yè)務(wù)的顛覆。
晚點:它是一種思想。
郎咸朋:對。之前大家的思想是做功能,跟軟件開發(fā)流程一樣。先設(shè)計功能指標、邏輯,然后找程序員寫代碼,再做評測。端到端之后,不再是人工設(shè)計功能,而是提供數(shù)據(jù),讓系統(tǒng)自己訓(xùn)練得到結(jié)果。
端到端仍然有一些驗證、測試相關(guān)的問題需要人工解決,可以理解為有監(jiān)督訓(xùn)練。到了 VLA 就是無監(jiān)督訓(xùn)練,完全可以自己迭代。如果強化訓(xùn)練閉環(huán)的完全體上線,半年一年可能頂過去五年十年。
所以大家可能理解得狹隘了,認為 VLA 加強化學(xué)習(xí)只是技術(shù)變革,其實它是整個業(yè)務(wù)的一個大變革,落地后會成為企業(yè)真正的護城河——不是模型、數(shù)據(jù)或芯片,而是整個業(yè)務(wù)流程。這個能力建設(shè)不會很快,需要一兩年迭代。一旦迭代完畢,比如我們 2025 年開始做 VLA 強化閉環(huán),2025、2026 兩年做好,到 2027 年就全都變了。
晚點:你們 2027 年要做到 1000 公里的 MPI(Miles Per Intervention,平均接管里程)?
郎咸朋:我們預(yù)計到 2026 年底是 1000 公里的 MPI,到 2027 年可能就不用 MPI 這個指標了。就像最早造車時,衡量汽車質(zhì)量的指標跟現(xiàn)在不一樣。那時車經(jīng)常壞,現(xiàn)在車不會壞,人們關(guān)心的是磨損等指標。
我們現(xiàn)在要么自己測試仿真發(fā)現(xiàn)問題,要么推向市場后用戶反映發(fā)現(xiàn)問題。強化閉環(huán)出來后,不用你說,系統(tǒng)自己就知道哪有問題。今天這個用戶接管,明天那個用戶開車頓挫、急剎車,系統(tǒng)會自動收集問題,數(shù)據(jù)回傳后自動強化訓(xùn)練,迭代完就上線。
2019 年,郎咸朋為理想自動駕駛業(yè)務(wù)發(fā)展標出四個關(guān)鍵時間節(jié)點:2021 年確認自動駕駛核心技術(shù)方案;2023 年拿到自動駕駛?cè)雸鋈?025 年成為頂級自動駕駛公司;2027 年實現(xiàn) L4 常態(tài)化運營。
郎咸朋在 2019 年的自動駕駛 LSA 戰(zhàn)略分析文檔中寫道:
高效運營數(shù)據(jù)閉環(huán)有兩個前提條件。
第一,確認算法能力 A:這將決定一個自動駕駛系統(tǒng)的能力上限。在選擇算法方案時,必須具備一定的前瞻性,以確保技術(shù)上限足夠高,避免未來因能力不足而陷入困境。同時,這個選擇需要盡快但慎重地做出,因為一旦核心算法方案確定,中途更換將意味著推倒重來。
第二,最大化有效數(shù)據(jù)量 D(t):數(shù)據(jù)將驅(qū)動算法迭代。為了最大化有效數(shù)據(jù)量,車輛必須標配與數(shù)據(jù)閉環(huán)相關(guān)的軟硬件,并且這一選型需要在后續(xù)車型中保持一致,否則數(shù)據(jù)將無法被有效利用。數(shù)據(jù)量的增長要依靠產(chǎn)品銷量支撐,因此企業(yè)必須具備打造一流量產(chǎn)自動駕駛產(chǎn)品的能力,以及良好的交付能力。
晚點:特斯拉 FSD 已經(jīng)進中國了。一年前你告訴我們,理想和特斯拉在自動駕駛領(lǐng)域有半年差距,現(xiàn)在呢?
郎咸朋:現(xiàn)在大家差距還沒拉開。等我們上了 VLA 加強化閉環(huán)之后,真正實現(xiàn)自我迭代,就會是代際差別。到那時,我們可能會在中國市場超過特斯拉。特斯拉在中國不會有像我們這種便利的環(huán)境做閉環(huán)迭代。
晚點:有內(nèi)測用戶說,特斯拉新的 FSD 14.1.2 已修復(fù) 95% 的猶豫變道和剎車問題,“過去兩天我都沒有碰過方向盤”。理想如何評價 FSD V14 版本?
郎咸朋:我們非常關(guān)注 FSD V14 的進展。從現(xiàn)有用戶視頻來看,表現(xiàn)確實非常出色,解決了不少長期存在的長尾問題。后續(xù)我們團隊也會在美國本地做實車體驗。
就在 10 月 21 日 ICCV 大會上,Ashok(特斯拉 AI 軟件副總裁)展示了特斯拉的模型框架,其中已明顯包含 Language 模塊,并且引入了如 3DGS 等多模態(tài)任務(wù),這與我們 VLA 體系(Vision-Language-Action)在理念上高度一致。
理想 VLA 同樣不止于語言或行為層,而是通過多模態(tài)世界理解、決策與動作協(xié)同,實現(xiàn)閉環(huán)學(xué)習(xí)與自我進化。
整體而言,特斯拉與理想在技術(shù)路徑上方向一致、實現(xiàn)細節(jié)不同。我們把 FSD V14 視為一個值得學(xué)習(xí)和對標的關(guān)鍵對手。
晚點:現(xiàn)在特斯拉一個重要的迭代方向是硬件算力,Hardware 5.0 甚至 6.0。理想會去做更大算力的硬件嗎?
郎咸朋:特斯拉的資源和能力支撐它這么做,這并不代表它一定對,但是把算力預(yù)留多了,總的來說沒壞處。其實現(xiàn)在所有人都不確定到底多少算力夠用,但一定會收斂到合理數(shù)值。
業(yè)務(wù)流程變革完成后,我們就知道合理算力是多少了。可能未來一兩年我們能回答出來,到底車端是 1000TOPS 還是 2000TOPS。總之不會太大,因為駕駛相對比較簡單。
晚點:要最終實現(xiàn)自動駕駛,剛才你提到很多便利條件,包括端到端和 VLA。最大的挑戰(zhàn)或者瓶頸可能會出現(xiàn)在什么地方?
郎咸朋:真正的自動駕駛需要變成大規(guī)模落地的應(yīng)用,技術(shù)只是第一個挑戰(zhàn)。更大的挑戰(zhàn)來自怎么大規(guī)模商業(yè)化落地。就像是 iPhone 怎么說服大家使用 App Store、iCloud 服務(wù)。而且必須一上來就弄得特別好,否則大家可能會直接否定這個商業(yè)模式。
所以我會更加慎重地去做。在技術(shù)上可能會做得激進一點,但在商業(yè)化落地上,需要更穩(wěn)妥一些,充分準備好之后再推向大眾。
晚點:而且不僅是國內(nèi)市場,它是全球市場。
郎咸朋:先做國內(nèi)就行。國內(nèi)的商業(yè)化落地也是很大挑戰(zhàn)。
輔助駕駛就需要很長時間做用戶教育,如果看最早供應(yīng)商做的 ADAS,包括 Mobileye 開發(fā)的特斯拉 Hardware1.0、2.0,距今已過去十幾年。L4 實際上是無人狀態(tài),法律法規(guī)包括大眾的接受程度,會是最大挑戰(zhàn)。
晚點:你說 L4 先做國內(nèi)市場就可以,但是你們前段時間剛建立創(chuàng)新業(yè)務(wù)部,據(jù)說是面向海外市場的。
郎咸朋:除了美國,海外其他地區(qū)對智駕的接受程度還停留在國內(nèi)市場前幾年的水平。而且海外的法規(guī)還需要持續(xù)地去影響,包括我們產(chǎn)品怎么做。
所以,我們就先建立這樣一個海外預(yù)研部門,一方面交付產(chǎn)品,另一方面預(yù)研將來 L4 怎么在海外落地和推廣。技術(shù)上都一樣,但是商業(yè)化落地、產(chǎn)品設(shè)計和研發(fā),跟國內(nèi)肯定有區(qū)別。
系統(tǒng)在痛苦中建立,業(yè)務(wù)演進導(dǎo)致組織變化
晚點:你加入理想將近八年,最艱難的時刻是什么時候?
郎咸朋:2019 年,那時候我個人的系統(tǒng)還沒有建立好,正在經(jīng)歷從研發(fā)工作者到業(yè)務(wù)負責(zé)人的轉(zhuǎn)變,這個過程非常痛苦。雖然后面也遇到過很多困難,但那次轉(zhuǎn)型是最痛苦的,就像把你整個人撕裂開來,再重組,然后讓你完成一次徹底的迭代。
晚點:最有成就感的時刻呢?
郎咸朋:到目前為止,應(yīng)該是去年端到端的量產(chǎn)落地。VLA 現(xiàn)在還沒完全弄好,但端到端讓我非常有成就感。
再往前,就是 2021 年 5 月 “衛(wèi)城” 項目的交付,我們用不到 90 天完成這件事,那是我們真正第一次從 0 到 1 交付,讓我終生難忘。如果那次失敗,就沒有后面我們所有的自研過程。去年端到端方案的交付,是我們第一次從落后反超到領(lǐng)先。下一個重要時刻可能就是真正實現(xiàn) L4。
2021 年 2 月 26 日,理想啟動其首個全棧自研的智能駕駛項目,內(nèi)部代號 “衛(wèi)城”。項目英文名 “Acropolis” 是 “ADAS Capability Research Original Production On Lixiang SUV” 的縮寫,代表 “理想汽車 SUV 車型原廠智駕功能研發(fā)”。
為配合 “衛(wèi)城” 主題,項目各個團隊也采用了希臘神話中的代號:如硬件團隊為 “雅典娜”(Athena),算法團隊為 “阿爾忒彌斯”(Artemis),數(shù)據(jù)團隊為 “波塞冬”(Poseidon),分別象征著戰(zhàn)爭、狩獵與數(shù)據(jù)海洋。
在 “衛(wèi)城” 項目上,理想智駕團隊第一次采用集中封閉的開發(fā)模式。春節(jié)假期剛過,項目團隊就分頭在北京望京、連云港東海等地啟動研發(fā)。
晚點:2021 年 5 月落地基于雙征程 3 自研方案時,自研團隊有多少人?
郎咸朋:整個團隊不到 100 人。“衛(wèi)城” 項目是從各個團隊東拉西湊人手組成的,加起來一共 100 多人,那份名單我現(xiàn)在還留著。
晚點:從 2021 年到現(xiàn)在,你們的組織架構(gòu)是怎么演變的?
郎咸朋:2021 年時你說有啥組織邏輯?就一個項目組。不過從開始自研到現(xiàn)在,我們的骨干人員已經(jīng)走到了第三代。2021 年之前,算法研發(fā)的主力是王軼倫,軟件研發(fā)的主力是關(guān)書偉。當(dāng)時賈鵬剛?cè)肼毑痪茫谧鰯?shù)據(jù)閉環(huán)。
晚點:有理想的人說,你們數(shù)據(jù)閉環(huán)做得好,因為招了一個英偉達的人過來,那應(yīng)該就是賈鵬。
郎咸朋:對,其實英偉達也沒做過數(shù)據(jù)閉環(huán),當(dāng)時大家也沒數(shù)據(jù),但賈鵬的能力肯定夠。我們之所以能成功,最大護城河就是數(shù)據(jù)閉環(huán)。等 VLA 成功的話,護城河就是現(xiàn)在正在搭建的強化訓(xùn)練閉環(huán)。
第一代骨干是王軼倫、關(guān)書偉、賈鵬,這三個人跟我一起做了 2021 年的自研。完成從 0 到 1 后,王軼倫和關(guān)書偉走了。軼倫去做量化,書偉輾轉(zhuǎn)了好幾個地方。
第二代骨干是賈鵬、王佳佳和我。第二代一直走到端到端時,夏中譜加入團隊。現(xiàn)在是第三代,新班子以詹錕、湛逸飛為主,加上后面 9 個二級部門負責(zé)人,一共 11 個。希望有人能成長為像湛逸飛、詹錕這樣的角色。
其實詹錕 2021 年就來了。他當(dāng)時還在更下面一層,經(jīng)過這幾年從 NOA 到端到端再到 VLA,慢慢成長為二級部門負責(zé)人,在管理和研發(fā)上都有很大貢獻。
晚點:你們早期人事變動也挺多。
郎咸朋:完成自研的從 0 到 1 之后,大家觀念和想法有變化,比如有人對比蔚來、小鵬都幾十上百億地投,人數(shù)也比我們多很多,覺得公司投智駕投少了。
想哥的經(jīng)營邏輯是不能亂花錢,要保證毛利,保證經(jīng)營利潤率是正的。我們確實是新勢力幾家里經(jīng)營利潤率最早轉(zhuǎn)正的,但他們可能覺得沒必要這么摳,應(yīng)該放開投自動駕駛。
成功最必要的條件是堅持,其次才是能力或者才華。團隊里負責(zé)算法模塊的一位同事,之前做了很長時間數(shù)據(jù)、質(zhì)量分析等很多周邊事情,對業(yè)務(wù)全局有了更廣度的了解。而且做了很長時間,深度也夠。這時再讓他做核心算法模塊,就更有信心做好。
我們還有位同事是理想智駕部門最早一批,中間離開過,到 2021 年我們開始自研又回來了。他做過地圖、系統(tǒng)軟件架構(gòu),還做了數(shù)據(jù)相關(guān)的事情,最終慢慢穩(wěn)定在 AI 評測與運營。
這是我培養(yǎng)人的方式——核心負責(zé)人應(yīng)該對全面業(yè)務(wù)有一定了解,而且愿意為這件事情的最終達成做任何事。
晚點:作為一位帶領(lǐng)千人左右團隊的技術(shù)高管,你怎么培養(yǎng)自己管理團隊的能力?
郎咸朋:我是 2018 年加入理想的,之后一年多感覺啥也沒做,也沒資源,團隊就十來個人,天天跟著供應(yīng)商后面做測試。團隊內(nèi)部也不相信我們,覺得我來了一年也沒干啥事兒,是不是能力不行,從百度過來忽悠人的?
我們其實也想做點事情,當(dāng)時我問鐵哥(理想汽車 CFO 李鐵)要了一點經(jīng)費,買了幾個 Velodyne 的 64 線激光雷達。既然不讓我們做 L2,因為 L2 有供應(yīng)商做,那我們就自己做點 L4 的預(yù)研唄。就跟小馬智行樓天成的想法一樣,一方面交付 L2,另一方面研究 L4。
那幾個激光雷達得找車裝,但也沒車,我們就找做碰撞測試報廢的車里還能開的。一個激光雷達大概要花 60 萬到 80 萬,一共花了鐵哥 300 多萬。這些錢放在任何自動駕駛公司都是毛毛雨,但那時候?qū)ξ覀儊碚f簡直是不可多得的東西。
有時候我們把激光雷達放在辦公桌上做實驗,鐵哥看見就說:“郎博,你這個激光雷達還用不用,不用把它們退了。” 要知道這是 2019 年,那時候理想融資非常困難。想哥那年到處找投資人,見了上百個投資人,最后才找到王興投資。如果沒有王興,2019 年整個公司可能都有很大風(fēng)險。
那時期我也痛苦,事后想想大概是因為老在想怎么表現(xiàn)自己。很多有才華的技術(shù)人員都希望能展示才華,但他不知道展示才華有個前提:你得在這個大平臺上,讓這個平臺跟你一起成長。
晚點:后來是怎么轉(zhuǎn)變想法的?
郎咸朋:所有組織變化都跟業(yè)務(wù)相關(guān),所有業(yè)務(wù)變化都跟戰(zhàn)略相關(guān)。這是貫穿始終的主線。LSA(Li Strategy Analysis,理想汽車戰(zhàn)略分析法)對我的指導(dǎo)意義非常大。
那時候想哥找我談話,建議用 LSA 的框架看人生、業(yè)務(wù)、戰(zhàn)略目標,然后根據(jù)戰(zhàn)略目標設(shè)置業(yè)務(wù)目標,有了業(yè)務(wù)再建立組織,組織之后才是架構(gòu),然后還有資源和錢,結(jié)合整個公司背景來看這件事情。
當(dāng)時他跟我說,假設(shè)我現(xiàn)在就給你 100 個億,你能把自動駕駛做出來嗎?你得判斷什么時候能做好,或者建立起基礎(chǔ)能力需要多長時間,需要什么樣的資源。
其實 2017 年入職之前面試,我就在跟想哥說,自動駕駛最重要的是數(shù)據(jù)。想哥后來就說,郎博,你最初是不是這么說的?那如果咱要做到這一點,第一步肯定不是買幾個激光雷達,而是要把車先做好,所以就得跟供應(yīng)商一起把車上這套系統(tǒng)先交付了,然后車先真的能賣起來時,咱有現(xiàn)金流、有經(jīng)營利潤了,才能慢慢再投自動駕駛。
站在今天,想哥說的話都應(yīng)驗了,后邊確實一年年投的也多了,理想投自動駕駛累計也是幾十個億、上百個億了。但倒回到 2019 年時,別說 1 個億了,連 1000 萬都沒有。那時候道理是這個道理,但作為負責(zé)人心里不爽。
晚點:當(dāng)時小鵬、蔚來不僅是國內(nèi)幾百人的研發(fā)團隊,海外團隊也在建。
郎咸朋:想哥當(dāng)時勸我說,就算現(xiàn)在給你資源,也只是滿足一時的執(zhí)念,不會有真正的積淀。
我那時很掙扎,從百度過來一年多,收入低、項目難推進,看著以前的同事都在大廠風(fēng)生水起,確實煎熬。也想過離開,但冷靜想想,理想這個平臺、包括想哥本人,還是能支撐我們做出真正的 L4 自動駕駛。
所以我選擇留下。很多人換平臺,但我覺得真正能做成事,需要系統(tǒng)性的思維,而不是遇到挫折就換賽道。
晚點:你是怎么用 LSA 這套方法做自動駕駛業(yè)務(wù)的?
郎咸朋:LSA 抽象起來就是幾句話:認知決定戰(zhàn)略,戰(zhàn)略決定業(yè)務(wù),業(yè)務(wù)決定組織和資源。
首先,你要不停迭代自己的認知,我當(dāng)時對自動駕駛的理解已經(jīng)夠了。接下來是戰(zhàn)略目標:理想要在哪一年實現(xiàn)自動駕駛?為了實現(xiàn)目標,比方說需要 100 億公里數(shù)據(jù),那就得算算整個公司大概在哪一年能累計交付 100 萬輛車。我們?nèi)ツ昀塾嫿桓栋偃f輛車了,所以自動駕駛才開始爆發(fā),這非常符合當(dāng)時的設(shè)想。
在這個過程中,一方面你別讓公司垮了,別讓公司錢全投給自動駕駛,公司還經(jīng)不經(jīng)營?另一方面,你在有限資金下,怎么更好地積累能力,等到公司真有 100 萬輛車時,你別拿不出能力來。
所以之前有兩條線。明線是要做交付,暗線是團隊內(nèi)部的業(yè)務(wù)能力搭建。在 2024 年端到端之前,我們的業(yè)務(wù)能力最核心的就是如何構(gòu)建數(shù)據(jù)閉環(huán)。我在自己 2019 年的 LSA 里就寫過這句話:自動駕駛的本質(zhì)是高效的運營數(shù)據(jù)閉環(huán)。從業(yè)務(wù)出發(fā),到組織和資源,當(dāng)時都算過了,我們大概到 2025 年之后,一年穩(wěn)定花 30 個億左右。現(xiàn)在我們差不多也是這么花的。
2019 年,郎咸朋在自動駕駛 LSA 戰(zhàn)略分析文檔中寫道:自動駕駛技術(shù)要解決的核心問題,是讓車輛的自主駕駛有效區(qū)域(記為 I')不斷擴大,直至完全覆蓋真實世界(記為 I)。其能力發(fā)展可以用一個公式來描述:I' = A · D(t) · δ(t)。
A 代表算法能力,由算力、傳感器、執(zhí)行機構(gòu)等硬件與核心算法共同構(gòu)成。D(t) 代表有效數(shù)據(jù)量,隨車輛保有量增加而逐漸增大,最終趨于一個穩(wěn)定且巨大的數(shù)值。δ(t) 代表數(shù)據(jù)閉環(huán)的效率,即數(shù)據(jù)轉(zhuǎn)換到算法的效率。
郎咸朋當(dāng)時分析稱:在公式的三個乘數(shù)中,算法能力 A 一旦選擇之后就是常量。有效數(shù)據(jù)量 D(t) 雖然是變量,但如果軟硬件標配后可最大化這個數(shù)值為一個與銷量相關(guān)的常量。所以只剩下一個關(guān)鍵變量,即數(shù)據(jù)閉環(huán)效率 δ(t),它將決定整個自動駕駛的能力發(fā)展。因此,自動駕駛的本質(zhì)是:高效運營數(shù)據(jù)閉環(huán)。
郎咸朋:我肯定不是天才,也不是最優(yōu)秀的人。我相信很多人都能跟我一樣,在某個時間點做出后面那些認知和規(guī)劃。但難的是這需要很多時間去實現(xiàn),而且過程當(dāng)中有很多波折和坎坷。你能不能在遇到任何情況時,還能堅持你當(dāng)時自己的認知、判斷和規(guī)劃。
這個非常重要。簡單說就是你制定了一年期的鍛煉計劃,刮風(fēng)了、下雨了、打雷了,你是不是能風(fēng)雨無阻地去鍛煉?
晚點:總結(jié)起來,就是既要有一個非常遠期的計劃,同時又要把遠期和近期的工作目標結(jié)合好?
郎咸朋:還不是結(jié)合,就是在遇到一些現(xiàn)實的困難和問題時,你能不能不受它們干擾?比方說公司要優(yōu)化、要裁員,公司經(jīng)營不下去了,難道還給你投很多錢嗎?但不論公司有什么樣的困難,你都要堅持住你自己之前做的認知上的計劃。
剛剛說了一個負面的,還有正面的。2023 年車賣得好,年底獎金給得也挺多,整個公司也挺膨脹。當(dāng)時就說,郎博你們這個自動駕駛不行,得多招人。我當(dāng)時的認知是不需要很多人,跟特斯拉差不多就行了。
特斯拉兩三百人,我們沒有它那么厲害,有五六百、七八百人就行了。總之肯定不要幾千人,人一多自然會有問題。實際上,到年底我們也就 1000 人多一點。
在我的數(shù)據(jù)閉環(huán)思路里,從 Operation(運營) 到 Validation(驗證),整個系統(tǒng)自我運轉(zhuǎn)起來后,不需要那么多人。特斯拉已經(jīng)給了很好的示范,全球運營幾百萬輛車,做自動駕駛的也就這幾百人。
特斯拉只有 FSD 一個平臺,我們可能是兩個平臺,英偉達的,地平線的。那我們?nèi)藬?shù)比特斯拉多一倍,500 人差不多了。我再比他笨點,七八百人就差不多了。你肯定不能弄到兩三千人,這肯定是不可想象的。如果人一多,這些人勢必就會證明:人多是對的。那就減不下去了。
在高峰時不膨脹,在低谷時不放棄
晚點:你 2018 年來理想時,和李想說的是要做自動駕駛,還是智能駕駛?
郎咸朋:自動駕駛,甚至是無人駕駛,當(dāng)時還聊到 L4/L5 級別。當(dāng)時只能去車企——百度不造車、沒有數(shù)據(jù),得跟車廠合作。國外車廠隔得太遠,而且奔馳寶馬的數(shù)據(jù)也不會開放給我們。
晚點:在理想這七年多,哪些超出你的預(yù)期,哪些在當(dāng)初的設(shè)想之中?
郎咸朋:剛?cè)肼毨硐霑r,有管理崗(M 崗)和研發(fā)崗(P 崗),我還主動要求把自己放 P 崗,就想著把技術(shù)做好。但后來才明白,如果想真正做好技術(shù),必須把整個業(yè)務(wù)管理都做好。
實現(xiàn) L4 涉及技術(shù)、產(chǎn)品和商業(yè)三個部分。我之前從沒想過商業(yè)還跟我有關(guān)系,但我正在做的就是規(guī)劃 L4 實現(xiàn)后的商業(yè)戰(zhàn)略。這完全不同于很多人想的,比如 Robotaxi 或者售賣 FSD 功能就是商業(yè)化。其實 iPhone 背后的商業(yè)價值是智能手機加整個 iCloud 等服務(wù)體系,還挺復(fù)雜。
晚點:現(xiàn)在你怎么分配自己在工作上的時間?
郎咸朋:放在技術(shù)上的比例越來越少了,我的工作重心已經(jīng)轉(zhuǎn)向管理和戰(zhàn)略。大概 50% 的精力放在管理上,主要是組織、人員、資源等短期日常事務(wù);30% 用于中長期的戰(zhàn)略和商業(yè)規(guī)劃;剩下的 20% 放在技術(shù)和業(yè)務(wù)進展上。
晚點:你什么時候最焦慮,當(dāng)時是如何度過的?
郎咸朋:做端到端之前,我從來不抽煙。到端到端那時候就開始抽煙。早晨從家到公司抽一根,晚上回家時,夜深人靜再抽一根,然后思考怎么研發(fā)端到端。那時的焦慮還是在于,能不能把這個技術(shù)、產(chǎn)品突破出來,因為我們真正開始做領(lǐng)頭羊了。
之前華為、特斯拉在前面,我們照著追就行。追平之后再往前走,方向怎么選、能否執(zhí)行好,沒有樣本可以參考。這確實是更焦慮的時候。
不過剛開始超越別人時,我可能想得比較多,現(xiàn)在 VLA 已經(jīng)超越了一部分,我反而能看得更清楚。回頭看來時路會發(fā)現(xiàn),只要我作出的決策合乎戰(zhàn)略選擇、符合歷史大勢,就一定有辦法把問題解決好。
晚點:你們團隊現(xiàn)在有很多校招生,他們年輕又有潛力,你怎么培養(yǎng)和管理這些人才?
郎咸朋:這些人都有自己的想法,你很難說服他們,而且他們可能都覺得比你聰明、比你厲害。最關(guān)鍵的是把公司戰(zhàn)略和目標講透,讓他們明白我們到底要去哪。想哥也經(jīng)常這么做,他跟校招生平均每個月有一次溝通。
優(yōu)秀人才不可能被說服,但可以讓他們在理解目標之后愿意跟著一起走。還有就是給足資源和空間,讓他們能放開手腳做事。
晚點:如果今天的你給 2018 年剛?cè)肼毨硐霑r的自己提一條建議,可能會是什么?
郎咸朋:我真覺得一切都是最好的安排。我學(xué)到的最大經(jīng)驗,就是不要跟年輕人講經(jīng)驗,他們是靠自己去悟。如果非要說的話,就是能不能把 2019 年的迭代再提前一點?但 2018 年時公司又沒有 LSA。到目前為止,人生沒有什么遺憾,很多人覺得遺憾,還是因為沒有看透事情的本質(zhì)。
不過說起來,我曾經(jīng)覺得自己有一個遺憾,但不是在工作中,而是在學(xué)習(xí)中。雖然我后來讀博,但我最大的遺憾是沒有上一個好本科。
晚點:沈陽化工學(xué)院。
郎咸朋:我那屆沈陽化工學(xué)院從山東招了 20 個人,只有 7 個最終留在那所學(xué)校。很多人是看學(xué)校一眼就直接走了,說 “我要回去復(fù)讀,這是什么破學(xué)校?不待。” 但我當(dāng)時覺得既來之、則安之,想著在學(xué)校里好好學(xué),等考研再考出來。
考研時,我還問學(xué)校里一些相對比較優(yōu)秀的老師,什么學(xué)校比較好?說能考上中科院沈陽自動化所就非常好,因為連他們自己都考不上。我最后考上了,但發(fā)現(xiàn)還不如考清華北大的研究生,或者到中科院北京自動化所來讀書。
所以我之后還是覺得,視野決定認知,在一幫矬子里邊當(dāng)將軍其實不能證明什么,一定得出來。
后來到了百度。大家都覺得百度挺好的,可我想做自動駕駛,想到離車近、有數(shù)據(jù)的地方去。到理想后,從衛(wèi)城到無圖是有突破,但還沒達到公司要求,我自己也不滿足——做無圖還是被華為和小鵬壓著。那怎么能突破?端到端、VLA。
晚點:假設(shè)你最終實現(xiàn)了 L4/L5 級別的自動駕駛,之后可能會選擇做什么?
郎咸朋:我應(yīng)該還是會一直去挑戰(zhàn)一些不太可能的極限,而且我會得到很大樂趣——當(dāng)別人都覺得你不行的時候,你做成了,是很爽的。這包括之前的衛(wèi)城,也包括后來的端到端和 VLA。
我肯定能做成一些事情,這并不是說我對自己迷之自信,而是掌握了一定的方法和規(guī)律。事物的發(fā)展一定有高峰和低谷,那么在高峰時你能不能忍住不膨脹?在低谷時你能不能忍住不放棄?在聰明才智以外,這才是核心能力。
題圖理想汽車





京公網(wǎng)安備 11011402013531號