
![]()
“NeurIPS,被譽(yù)為「AI界的奧斯卡」,是人工智能領(lǐng)域的全球年度風(fēng)向標(biāo)。”
作者丨馬廣宇
編輯丨李雨晨
12月4日,任少卿、何愷明、羅斯·吉爾希克(Ross Girshick)、孫劍憑借“Faster R-CNN ”(快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)架構(gòu))榮獲2025年神經(jīng)信息處理系統(tǒng)大會(NeurIPS)時(shí)間檢驗(yàn)獎。
NeurIPS(神經(jīng)信息處理系統(tǒng)大會),是人工智能與機(jī)器學(xué)習(xí)領(lǐng)域最具影響力的國際頂級學(xué)術(shù)會議,在AI學(xué)科領(lǐng)域排名第一,被譽(yù)為“AI界的奧斯卡”,是人工智能領(lǐng)域的全球年度風(fēng)向標(biāo)。
NeurIPS時(shí)間檢驗(yàn)獎是人工智能領(lǐng)域最具影響力的獎項(xiàng)之一,專門表彰經(jīng)過十年時(shí)間檢驗(yàn)、對學(xué)科發(fā)展產(chǎn)生深遠(yuǎn)影響的奠基性工作。
過去三年,該獎項(xiàng)授予包括諾貝爾獎得主杰弗里·辛頓(Geoffrey Hinton)、圖靈獎得主約書亞·本吉奧(Yoshua Bengio)、OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家伊爾亞·蘇茨克維(Ilya Sutskever)等在內(nèi)的國際頂尖學(xué)者。
“Faster R-CNN ”是在2015年由中國學(xué)者任少卿、何愷明、孫劍主導(dǎo),聯(lián)合美國人工智能科學(xué)家羅斯·吉爾希克(Ross Girshick)共同發(fā)表,這一新型網(wǎng)絡(luò)架構(gòu)能將物體檢測效率提升10倍以上,首次開創(chuàng)了端到端實(shí)時(shí)精準(zhǔn)目標(biāo)的檢測模式。
目前,這一文章已經(jīng)被學(xué)術(shù)引用超9.8萬次,第一作者任少卿,是華人作為第一作者在該會議上發(fā)表的學(xué)術(shù)引用量最高的文章,同時(shí)也是AI檢測領(lǐng)域全球最高被引論文。
十多年的時(shí)間,這一模型的核心思想已經(jīng)被深度融入到人工智能的基礎(chǔ)技術(shù)基因當(dāng)中,并成為了驅(qū)動自動駕駛、醫(yī)療影像、安防監(jiān)控、工業(yè)檢測、衛(wèi)星遙感等國計(jì)民生和經(jīng)濟(jì)發(fā)展關(guān)鍵領(lǐng)域的核心。
任少卿與Faster R-CNN中的合作者何愷明(現(xiàn)MIT副教授)、孫劍(前曠視科技首席科學(xué)家)有著緊密的合作關(guān)系,此前還發(fā)表過深度殘差網(wǎng)絡(luò)框架ResNet,該文章已經(jīng)成為21世紀(jì)全球最高被引論文。
在任少卿獲獎之前,雷峰網(wǎng)曾在2025年下半年與其進(jìn)行了深度對話,雷峰網(wǎng)作了不改變原意的編輯:
01
任少卿與孫劍、何愷明的故事
雷峰網(wǎng):孫劍老師是您的導(dǎo)師,當(dāng)時(shí)有過什么事情讓您印象深刻?
任少卿:我印象深刻的是,孫劍老師當(dāng)時(shí)比較堅(jiān)持“simple but work”,真正認(rèn)可并理解這件事是一個循序漸進(jìn)的過程,也是日常交流中慢慢形成的共識,比如看別人的工作、討論paper、組內(nèi)評審paper時(shí),孫老師會給一些深刻的指導(dǎo),逐漸我也理解到了“simple but work”。
![]()
孫劍
實(shí)際上我當(dāng)時(shí)寫的第一篇paper就不太simple,雖然是熬了很多個夜寫完,但到最后還是決定不投了。當(dāng)然現(xiàn)在回頭看,那個paper基本上就是在別人的工作上做做a+b,確實(shí)沒太大的意義。
“Simple but work”實(shí)際上是跟孫老師的邏輯和理念相關(guān)的,這是一個挺難的追求。只能說做一些更核心的事,就需要更好的遠(yuǎn)見,更好的品位,以及堅(jiān)持,這三個東西缺一個都不行。
(孫劍是國內(nèi)AI頂級峰會 GAIR 2017、2018、2019的三屆講者。在會場間隙,孫劍對觀眾分享了獲獎?wù)撐?Faster R-CNN 的理解與靈感。)
雷峰網(wǎng):您覺得何愷明對你的最大影響是什么?你們合作的怎么樣?
任少卿:其實(shí)因?yàn)槲覀兒献鞯臅r(shí)間最長。每天早上到公司,先看看結(jié)果,接著就一起開始交流,從 11 點(diǎn)開始,到 12 點(diǎn)吃飯,吃飯時(shí)繼續(xù)討論,到下午 2 點(diǎn)開始各自干活,然后下午5點(diǎn)又開始討論,然后吃晚飯,這個節(jié)奏會讓我們很開心,因?yàn)槊刻於加行碌膶?shí)驗(yàn)結(jié)果在推動和交流。那時(shí)候深度學(xué)習(xí)也才剛開始,一個小團(tuán)隊(duì)這樣去看其實(shí)效率很高。
何愷明非常專注,他基本上不想別的事兒,只關(guān)注現(xiàn)在的這些研究問題,怎么創(chuàng)新,我覺得他幾乎 100% 的精力都在這上。
他在微軟亞洲研究院的時(shí)候,就住在旁邊一棟樓,走路一分鐘,兩分鐘都不要。
何愷明是很善于找方向、找到問題,然后找突破的學(xué)者,他花了巨量的時(shí)間在上面,然后去建立相應(yīng)的思維的架構(gòu),只有有思維架構(gòu)才能去找相應(yīng)的突破。
![]()
何愷明
雷峰網(wǎng):那時(shí)候選擇深度學(xué)習(xí),大家都還堅(jiān)決嗎?為什么覺得這是個方向?
任少卿:肯定是先試,看到了可能性之后才去堅(jiān)持。
為什么是這個方向,第一個邏輯是,從方法的角度來說,它有創(chuàng)新,看到了新的可能性。第二是當(dāng)時(shí)已經(jīng)有一些結(jié)果和進(jìn)展了。第三是拿這個復(fù)現(xiàn),能看到結(jié)果不是trick的,而是有一定泛化能力的結(jié)果。這些東西都有了之后,我們和業(yè)界才看到了可能性。
一個新方向首先上限要高,其次現(xiàn)在已經(jīng)達(dá)到的結(jié)果是真的,這不是一個trick,或者不是只在某一個小范圍內(nèi)work的東西。這幾個點(diǎn)都驗(yàn)證了之后,那其實(shí)就認(rèn)為這個方向是可擴(kuò)展的。
雷峰網(wǎng):Faster R-CNN到底解決了AI領(lǐng)域的什么問題?
任少卿:Faster R-CNN用今天的詞,解決的是自動駕駛端到端的問題。今天大家說端到端,就是因?yàn)樽詣玉{駛的任務(wù),之前是拆成一節(jié)一節(jié)的,就叫作感知、規(guī)劃、控制。而在物體檢測這個任務(wù)上,之前也沒有一個能一體化的解決方案,要把它分成兩步,或者三步。
這兩步是什么呢?第一步,要在圖像上去找一些可能的candidate,然后再去對這些candidate做分類。理論上每張圖如果窮舉,其實(shí)有百萬種以上的選擇。第二步,每個框都去判斷一下里面是不是有物體,這個計(jì)算量很大。所以之前的物體檢測的做法是分為兩步,與之前的自動駕駛一樣。
Faster R-CNN解決的,就是一個網(wǎng)絡(luò)直出,按今天的話說就是端到端,端到端解決什么問題呢?首先它的效率變高了,之前的檢測器,可能一秒鐘、兩秒鐘、三秒鐘才能刷一張圖。Faster R-CNN之后,變成了一個實(shí)時(shí)的10Hz、20Hz、30Hz這樣的狀態(tài)。實(shí)時(shí)對于應(yīng)用就很不一樣了,它就能開始處理視頻,這是對產(chǎn)業(yè)最大的一個突破。那其次因?yàn)樗说蕉耍说蕉酥缶涂臁⒀舆t就低,所以實(shí)際上效果就提升了。所以Faster R-CNN本質(zhì)上是解決了物體檢測任務(wù)的端到端。
02
加入蔚來:從零開始的團(tuán)隊(duì)和自研芯片
雷峰網(wǎng):您是什么時(shí)候加入的蔚來,當(dāng)時(shí)主要做了什么事?彼時(shí)蔚來又處于什么樣的階段?
任少卿:我大概是2020年8月十幾號入職,那個時(shí)候就是先搭團(tuán)隊(duì)。
蔚來第一代車是Mobileye方案。到了20年前后,實(shí)際上有兩個爭論。第一個爭論是L2和L4到底有多大差異,有個說法是L2永遠(yuǎn)做不了L4;第二個是要不要全棧自研,當(dāng)時(shí)蔚來的選擇是全棧自研L2的產(chǎn)品,支持L3和L4。
當(dāng)時(shí)我們決定了全棧自研,然后再去選芯片,看哪個芯片是靠譜的、能用的。從2020年8月到2020年底,開始建團(tuán)隊(duì),核心的人四五個月都到位,到七八個月的時(shí)候,團(tuán)隊(duì)就算比較到位了。急著干活的一個原因是時(shí)間:我們要量產(chǎn)的車是2022年3月份,而2020年8月由于方案都不同了,我們幾乎一切從“零”開始,集群、標(biāo)注、工具鏈這些當(dāng)時(shí)都沒有。
在組建團(tuán)隊(duì)的同時(shí),我們也在并行選芯片,與英偉達(dá)合作,Orin芯片我們提前量產(chǎn)了半年。最終蔚來全球首個量產(chǎn),也是截止到今天車上最復(fù)雜的一套ADC(自動駕駛域控制器)架構(gòu),所以那一年多很有意思。
雷峰網(wǎng):當(dāng)時(shí)選擇Orin是一件很有挑戰(zhàn)性的事?
任少卿:我入職的時(shí)候是2020年8月,2022年3月量產(chǎn)在中國的Orin方案,半年之后量產(chǎn)歐洲的方案,而蔚來的第二代車,是全球第一個量產(chǎn)Orin芯片,同時(shí)也是全球第一個量產(chǎn)高線束激光雷達(dá)的車型,所有的事情都是并行做的,當(dāng)時(shí)的挑戰(zhàn)就很大。
對于蔚來來說,干了三件一般人不敢干的事。第一代車Mobileye的EyeQ4方案,全球第一個量產(chǎn),第一個量產(chǎn)要踩很多坑。第二代就是全球首個量產(chǎn)英偉達(dá)Orin方案,還搞了4個芯片,是最復(fù)雜的一個架構(gòu)。第三代是自研芯片量產(chǎn)。所以每一代的量產(chǎn),都是非常大的挑戰(zhàn),斌哥有意愿、有信念去做這件事。
所以蔚來相應(yīng)的量產(chǎn)、對于新的芯片適配和調(diào)整的團(tuán)隊(duì),應(yīng)該是世界頂尖的,因?yàn)闆]有人連著干過這幾件事。
雷峰網(wǎng):Orin那時(shí)候什么問題比較多?
任少卿:當(dāng)時(shí)Orin是一個新的芯片,對英偉達(dá)也只是第二代量產(chǎn),新的芯片就會面臨很多新問題:比如算力比上一代增大了8倍多、新的架構(gòu)、新的制程,所以從硬件底層開始,它的散熱、功耗、熱穩(wěn)定性、是不是會丟東西,這都是最基礎(chǔ)的N個坑。
蔚來在此之前并沒有做過英偉達(dá)體系的量產(chǎn),先不說這些硬件底層的問題,上層所有AI、CPU、調(diào)度相關(guān)的工具鏈全部都要重新來。這些問題還都在一個不穩(wěn)定的基礎(chǔ)上,就得搭上面那一層,底下那層還在丟幀,上面那層就得看AI工具鏈怎么弄。
不能一層一層搭,是因?yàn)闀r(shí)間根本來不及,我們實(shí)際拿到芯片,離量產(chǎn)只有6-7個月。所以我們的團(tuán)隊(duì)肯定是世界頂級的,是打仗打出來的。
雷峰網(wǎng):定義芯片這件事您參與了嗎?
任少卿:我們是需求方,到底要做什么樣的東西我們這邊要先出個方案,然后和芯片團(tuán)隊(duì)大家一起從需求到技術(shù)到架構(gòu)進(jìn)行梳理。
在我們用了OrinX之后,也有了一些自己的理解,包括技術(shù)發(fā)展的理解。比如說在2021年的時(shí)候我們就覺得后面Transformer會用得更多一些,那時(shí)候這不是一個特別common的認(rèn)知,當(dāng)時(shí)業(yè)內(nèi)大部分都還是CNN。
雷峰網(wǎng):你是很堅(jiān)定的,因?yàn)槟闶沁@個信徒。
任少卿:其實(shí)現(xiàn)在看結(jié)果就知道。Transformer對內(nèi)存的大小、內(nèi)存開發(fā)的要求比CNN要高。我們現(xiàn)在看芯片,蔚來的芯片是帶寬最高的,而Transformer如果成為主流,它對內(nèi)存帶寬的要求遠(yuǎn)高于CNN,芯片的帶寬是很重要的事,這也是我們對方向的判斷。
如果之后芯片需要支持L3、L4更高級別的自動駕駛,芯片的冗余也是非常重要的事情。以前芯片它做不到熱冗余或者溫冗余,也就是說無法在100毫秒以內(nèi)做到兩個芯片切換,這是硬件限制的,所以我們自研芯片的時(shí)候,在芯片里面預(yù)埋了熱備的能力,百毫秒以內(nèi)兩個芯片切換用戶無感。這些東西都是為什么要做芯片的技術(shù)原因。
03
從數(shù)據(jù),到價(jià)值,再到“三天迭代一次”
雷峰網(wǎng):在當(dāng)時(shí)自研芯片量產(chǎn)進(jìn)程中,您還做了哪些事?為什么要做?
任少卿:在2020年到2022年之間,其中比較重要一環(huán)是去建設(shè)很多有特點(diǎn)的工具鏈和體系。
這些基本能力中,很重要的一件事是數(shù)據(jù)。數(shù)據(jù)其實(shí)是我們從20年開始在蔚來前兩年主要花精力的地方,這和我為什么到蔚來也相吻合。我們一直是說解放精力、減少事故,有兩個很核心的東西,第一是需要離用戶更近,才能有更快速的產(chǎn)品級反饋;第二是需要有更多真實(shí)的量產(chǎn)數(shù)據(jù)。這屬于兩個框架性的層面。
再往下一層看,數(shù)據(jù)到底是什么?2019年、20年的時(shí)候,行業(yè)有一個說法,大意是:供應(yīng)商就應(yīng)該能拿到所有主機(jī)廠的數(shù)據(jù),因?yàn)榇蠹矣X得云端的數(shù)據(jù)只需要copy case,花點(diǎn)帶寬、流量的費(fèi)用,幾乎是沒有成本。
但實(shí)際上從2020年開始,我們就認(rèn)為拷貝的數(shù)據(jù)沒有特別大的價(jià)值,因?yàn)閿?shù)據(jù)最重要的事情是corner case,這些corner case是相比于原來的系統(tǒng)。如果原來是一套規(guī)則系統(tǒng),那就相比這套規(guī)則系統(tǒng),如果原來是個模型,那就相比模型。所以數(shù)據(jù)取決于這個模型,模型A對應(yīng)的數(shù)據(jù)和模型B對應(yīng)的數(shù)據(jù),是不一樣的。
所以數(shù)據(jù)不再是說給誰都是同樣的價(jià)值,而是針對你的模型所挑出來的數(shù)據(jù)是不是有價(jià)值。反推過來,數(shù)據(jù)是依賴你挑選的精準(zhǔn)程度,而挑的過程又消耗算力,所以模型的根本就變成了對算力的消耗。算力又可以理解為是一個不可再生資源,因此數(shù)據(jù)就變成了高消耗、由不可再生資源換來的結(jié)果。
這樣的認(rèn)知讓我們意識到數(shù)據(jù)其實(shí)是對算力的調(diào)用,所以我們做的第一個系統(tǒng)是一個對云端算力調(diào)用靈活標(biāo)準(zhǔn)的系統(tǒng),這套系統(tǒng)不只是云端,包括車端,然后在這套系統(tǒng)上再去做大數(shù)據(jù)體系,我們叫它數(shù)據(jù)閉環(huán)系統(tǒng)。
還有一點(diǎn),按剛才我們聊到的邏輯,數(shù)據(jù)的最終目的是迭代模型,而迭代模型這件事,實(shí)際上汽車領(lǐng)域之前的效率不夠高的,比如Tier 1,半年或者一年才迭代一版。哪里迭代效率高呢?是互聯(lián)網(wǎng)行業(yè),大家用“AB test”,在用戶無感的時(shí)候,已經(jīng)迭代好多版本了。那做車能不能學(xué)互聯(lián)網(wǎng)廠商做“AB test”呢?可以,蔚來就建立了一整套靈活調(diào)度算力的系統(tǒng),蔚來可以在算力系統(tǒng)上建立“AB test”,整體的迭代也可以變到一周、兩周、一個月、一個季度,可以完整的去做測量模型,這是我們的第二套系統(tǒng)。
和特斯拉影子模式不同,影子模型是一套模型、兩套后處理代碼,一套后處理代碼用戶用,另一套后處理代碼用戶不用的時(shí)候做測試。而我們完全是車端兩套系統(tǒng),一套系統(tǒng)就是用戶用,另一套系統(tǒng)就是我下一代的算法在上面,并行去做AB test。
這也是我們從22年量產(chǎn)之后到今天,我們的主動安全能迅速迭代的原因之一。早期主動安全最大的問題是FP(false positive,誤報(bào))測試成本太高,一個誤剎對用戶影響極大,程序員寫代碼要盡可能小心并收窄范圍,以往業(yè)內(nèi)對AEB指標(biāo)是10萬、20萬公里一次FP,但一輛測試車兩三班倒,一天也就三五百公里,20萬公里就需要一兩百臺車測試一天,對蔚來的200萬公里一次FP的標(biāo)準(zhǔn)來說,完全迭代不動。
所以基于我們的第二套系統(tǒng)“AB test”,我們把它用在了主動安全上,現(xiàn)在哪怕最少200萬公里FP的標(biāo)準(zhǔn),我們也能做到三天迭代一次,完全逼近互聯(lián)網(wǎng)的迭代效果。
在這之上,我們又做了第三套系統(tǒng),這次要解決的是80多萬輛量產(chǎn)車的智駕問題,有些用戶每天都用蔚來的智駕,用的好就會繼續(xù)用,用的不好的主動接管,那這套系統(tǒng)對每一個接管做自動化分析,直接干掉99%以上的無效信息,返回0.1%-0.5%的數(shù)據(jù),我們再在云端用大模型過一遍,研發(fā)工程師再去看,最后出報(bào)告。
這是我們在20年到22年做這樣的一些工作,它的很多結(jié)果,其實(shí)到最近或者是再之后用戶才能感受到。
雷峰網(wǎng):您對于端到端怎么看?
任少卿:大家開始做所謂的端到端。這個詞其實(shí)很有意思,因?yàn)槟銜l(fā)現(xiàn)說除了智駕沒有人說端到端,但其他領(lǐng)域確實(shí)有人在用端到端。
從2010年DAMA開始,大家建立了一套在當(dāng)時(shí)的技術(shù)能力上其實(shí)是非常難做到的一個應(yīng)用,以至于不得不拆成一節(jié)一節(jié),打散了再一項(xiàng)一項(xiàng)解決,一直到2020年、2021年,讓熟悉研發(fā)的工程師畫自動駕駛架構(gòu),會發(fā)現(xiàn)大家畫的基本上是一樣的,所以從架構(gòu)層面來說,十幾年變化不大。
但到了2022年、2023年,產(chǎn)業(yè)鏈出現(xiàn)了一定的可能性,有機(jī)會打破原來的架構(gòu)進(jìn)行整合,然后拿到更快、更好的效果。業(yè)界就進(jìn)入所謂端到端的時(shí)代。大概在2023年的時(shí)候我們有過一次內(nèi)部討論,大概就是討論端到端面臨的問題。
端到端它是自動駕駛技術(shù)演進(jìn)過程的一個階段,但它沒有解決很多其他問題,比如語言模型是不是可以直接用在自動駕駛上?以及語言模型是不是一個終極的AGI的完整體?自動駕駛本質(zhì)上是一個真實(shí)世界中運(yùn)轉(zhuǎn)的Agent,類似“泛機(jī)器人”的概念,那面臨的問題是,有了語言模型后,AGI是否就實(shí)現(xiàn)了?還缺什么?這是2023年很長時(shí)間我們在思考的問題。
雷峰網(wǎng):對于世界模型和端到端的區(qū)別又怎么看?
語言模型的核心是語言,或者說是token,它的輸入是語言、輸出是語言,中間所有的表達(dá)全都是語言,它的根是語言。語言是什么呢?語言是概念的抽象。所以語言模型可以認(rèn)為,是以語言為核心建立的概念認(rèn)知的模型,他學(xué)到的能力是對于概念的認(rèn)知。
但“一圖勝千言”,概念語言是相對抽象的。首先,在真實(shí)世界里有非常多的細(xì)節(jié)很難用概念去做描述。我們可以大致描述細(xì)節(jié),但非常難以精確高效地描述它細(xì)的部分。其次,除了平面信息,人在真實(shí)世界里實(shí)際上交互的是三維和四維信息,即空間和時(shí)間。“空間”用語言更難描述,但在生活中又逃不掉。
所以我們認(rèn)為,概念認(rèn)知是表象,與語言并行的是時(shí)空認(rèn)知。時(shí)空認(rèn)知的底層是泛的圖像,這個圖像可以是二維的,也可以是三維、四維。概念認(rèn)知能力和時(shí)空認(rèn)知能力是AGI,或者說一個人、智能體、生物必需的,而語言模型解決不了時(shí)空認(rèn)知的問題。
世界模型本質(zhì)上是要建立時(shí)空認(rèn)知能力。時(shí)空認(rèn)知往下,它會分為物理規(guī)律、時(shí)空理解,也就是時(shí)間和空間,兩者結(jié)合就是世界模型要學(xué)習(xí)的。這件事是我們從2023年開始思考并投入研發(fā),2024年7月份的NIO IN上第一次公開發(fā)布,在行業(yè)內(nèi)蔚來是國內(nèi)第一家,在行業(yè)外大概率也是第一家,逐漸有越來越多的人都開始擁抱世界模型路線,包括騰訊也做了世界模型,業(yè)界的討論也開始多了起來。
雷峰網(wǎng):是什么讓蔚來決定All in世界模型?
任少卿:世界模型相較其他大模型都很難做到的一點(diǎn),那就是長時(shí)序能力,之前的自動駕駛,包括只要是跟真實(shí)世界和時(shí)序特別相關(guān)的場景,語言模型不需要一個嚴(yán)格的時(shí)間軸。但只要和物理世界相關(guān),時(shí)間軸非常明確。
這時(shí)候系統(tǒng)就面臨一個問題,如果遇到跨10秒、1分鐘、10分鐘的決策,應(yīng)該怎么做?自動駕駛前面十幾年是怎么解決的呢?只干了兩件事。第一個先是地圖,地圖本質(zhì)就是一個長時(shí)序的信息傳入。例如,地圖上顯示,某條街修路了,路徑需要改變;再比如這條路前面2個小時(shí)有擁堵的實(shí)時(shí)信息。所有的這些都是長時(shí)序信息的輸入,這是自動駕駛?cè)蝿?wù)遇到長時(shí)序的第一個信息來源。
第二個就是靠人寫if else,依靠規(guī)則代碼:如果前面發(fā)生某種狀況,3秒鐘之后應(yīng)該怎么處理,5秒鐘之后應(yīng)該怎樣,接下來1分鐘又該怎么樣,依靠規(guī)則。只有這兩種,沒有其它的方式。
但這才是人和機(jī)器最大的不同。隨著transformer、memory等技術(shù)出現(xiàn),業(yè)內(nèi)可以做到3秒鐘、5秒鐘,也就是如此。但人駕駛甚至有跨月的記憶,比如說一個月之前,你在這條路上開錯了,連續(xù)一個月之后你再也不會開錯,這個場景在所有現(xiàn)在的框架里是未能解決的。
那剛才說的這些長時(shí)序怎么辦?用世界模型去解決。蔚來在小路的處理能力就是一個很好的例子,在小路開智駕它既需要對空間理解,也需要對時(shí)間理解。
如果對向來了一輛車,在會車的時(shí)候要不要讓路?讓路的同時(shí)是要減速還是剎停?這里其實(shí)涉及到對時(shí)間理解和空間的推理判斷,或者說是長時(shí)序,因?yàn)楫?dāng)你看到對向來車的時(shí)候就要做出判斷。以往業(yè)內(nèi)做法是拆開去做,長時(shí)序的情況還是去靠if else,然后讓感知模塊和端到端模塊去處理一個三秒內(nèi)的動作,模型本身處理不了這么長的時(shí)序。
如果只靠外層的狀態(tài)機(jī),你會逐漸發(fā)現(xiàn)這種場景是割裂的,因?yàn)楸举|(zhì)上這是一個10s、20s的長時(shí)序的任務(wù),結(jié)果模型只能處理三秒,所以在這種場景會斷斷續(xù)續(xù)。而世界模型除了學(xué)習(xí)空間,同時(shí)也會學(xué)習(xí)時(shí)間,這就使得世界模型能夠支持長時(shí)序的推演,世界模型的外層狀態(tài)機(jī)基本被砍掉了,處理事情會更一體化。
這也是我們在2023年最核心的思考。
第八屆 GAIR 全球人工智能與機(jī)器人大會
2025年12月12-13日,第八屆GAIR全球人工智能與機(jī)器人大會,將在深圳南山·博林天瑞喜來登酒店舉辦。
今年大會,將開設(shè)三個主題論壇,聚焦大模型、算力變革、世界模型等多個議題,描繪AI最前沿的探索群像,折射學(xué)界與產(chǎn)業(yè)界共建的智能未來。目前,首批重磅大咖名單正式揭曉,還有更多行業(yè)領(lǐng)軍者將齊聚現(xiàn)場,共探智能的未來。歡迎點(diǎn)擊文末“閱讀原文”或識別海報(bào)二維碼,報(bào)名參會,相約 GAIR 2025 ~
![]()






京公網(wǎng)安備 11011402013531號