![]()
這項由清華大學智能產業研究院的陳博奎、龔建濤教授團隊,聯合華盛頓大學、北京交通大學、香港理工大學等多所院校共同完成的研究,發表于2025年10月的arXiv預印本平臺(論文編號:2510.12560v1)。對于關注自動駕駛技術發展的讀者,可以通過該編號查詢完整論文內容。
當我們學習開車時,通常會經歷兩個階段:先跟著教練模仿標準動作,然后在實際道路上通過試錯來積累經驗。有趣的是,目前的自動駕駛AI系統大多只會"模仿學習"這一種技能——就像一個只會照著教科書開車,但遇到突發情況就不知所措的新手司機。
清華大學的研究團隊發現了這個問題的關鍵所在。他們注意到,現有的自動駕駛系統主要依賴模仿學習,這就好比讓學生只通過背誦標準答案來學數學,而不教會他們解題的思路。這種方法在遇到教科書上沒有的新情況時,往往會表現得很糟糕,特別是在那些罕見但危險的長尾場景中,比如突然出現的行人或者異常的交通狀況。
為了解決這個問題,研究團隊提出了一個巧妙的解決方案:讓AI系統同時具備模仿能力和探索能力。他們開發了一個名為CoIRL-AD的新框架,這個名字代表著"協作競爭式模仿強化學習"。簡單來說,就是在AI的大腦里安裝了兩個不同的"駕駛員"——一個專門負責模仿專家駕駛,另一個專門負責探索和試錯。
這種設計的巧妙之處在于讓這兩個"駕駛員"既合作又競爭。模仿駕駛員會嚴格按照專家的示范來行駛,確保基礎駕駛技能的可靠性。同時,探索駕駛員會在安全的范圍內嘗試不同的駕駛策略,從成功和失敗中學習經驗。當兩個駕駛員的表現相近時,它們會和平共處;但當其中一個明顯表現更好時,較弱的那個會主動學習強者的經驗。
研究團隊在這個雙重學習系統的基礎上,還引入了一個虛擬的"想象世界"。這個想象世界就像一個高度逼真的駕駛模擬器,讓探索駕駛員可以在不實際上路的情況下,預測不同行駛策略的后果。這樣一來,AI系統就能在真實世界的數據基礎上,通過想象來擴展自己的經驗范圍。
特別值得注意的是,研究團隊還發現了一個有趣的現象:傳統的駕駛規劃通常是"從近到遠"——先確定眼前要怎么走,再考慮遠處的目標。但他們發現,"從遠到近"的反向規劃方式實際上更符合人類的駕駛思維。就像我們開車時,通常是先確定要去哪里,然后再決定具體的轉彎和變道動作。
在nuScenes和Navsim這兩個權威的自動駕駛數據集上,CoIRL-AD系統展現出了顯著的優勢。與傳統的純模仿學習方法相比,這個新系統的碰撞率降低了18%,在處理罕見和困難場景時的表現也更加出色。更重要的是,當系統在一個城市學習后被部署到另一個完全不同的城市時,它的適應能力明顯優于傳統方法。
研究團隊通過大量實驗驗證了他們方法的有效性。他們特別構建了兩個具有挑戰性的測試場景:一個專門包含那些容易導致預測錯誤的情況,另一個專門包含那些容易引發碰撞的危險場景。在這些困難場景中,CoIRL-AD系統都展現出了比傳統方法更強的應對能力。
這項研究的技術創新不僅體現在雙重學習架構上,還包括了許多精巧的細節設計。比如,為了讓探索駕駛員產生的行駛軌跡更加平滑和合理,研究團隊采用了"步驟感知"的探索機制。這種機制確保在每次探索中,只有一個行駛步驟是隨機的,其他步驟都采用最優策略,這樣既能保證探索的多樣性,又能維持軌跡的連貫性。
在實際的訓練過程中,研究團隊觀察到了一個類似人類學習的有趣現象:在訓練初期,模仿駕駛員通常表現更好,因為它有明確的專家示范可以學習。但隨著訓練的深入,探索駕駛員開始展現出優勢,因為它通過試錯積累了更豐富的應對經驗。這種動態變化恰好體現了學習過程的自然規律。
研究團隊還進行了詳細的消融實驗,驗證了框架中每個組件的必要性。他們發現,簡單地將模仿學習和強化學習的損失函數相加并不能獲得理想的效果,反而可能因為梯度沖突導致訓練不穩定。只有通過雙策略架構和競爭機制,才能真正實現兩種學習方式的有效結合。
值得一提的是,這個新系統在推理階段并不會增加額外的計算開銷。兩個駕駛員在訓練完成后會整合為一個統一的駕駛策略,因此在實際部署時的運行效率與傳統方法相當。
從更廣泛的意義來看,這項研究為自動駕駛技術的發展提供了一個新的思路。它表明,僅僅依靠模仿學習可能無法讓AI系統獲得足夠的泛化能力來應對復雜多變的真實世界。通過引入探索和試錯的機制,AI系統可以像人類一樣,不斷從經驗中學習和改進。
研究團隊在論文中也坦率地討論了當前方法的局限性。他們指出,由于使用的獎勵函數相對簡單,只考慮了模仿獎勵和碰撞獎勵,系統在某些復雜場景下的表現仍有改進空間。此外,基于世界模型的仿真雖然能夠提供額外的訓練數據,但與真實世界之間仍存在一定差距。
盡管存在這些局限性,CoIRL-AD框架已經展現出了巨大的潛力。它不僅在技術層面實現了創新突破,更重要的是為自動駕駛AI系統的學習方式提供了新的思考方向。這種結合模仿與探索的學習范式,很可能會成為未來自動駕駛技術發展的重要趨勢。
隨著自動駕駛技術逐漸走向實用化,如何讓AI系統在保持安全性的同時具備足夠的適應能力,始終是一個核心挑戰。清華大學團隊的這項研究為解決這一挑戰提供了一個富有啟發性的方案,相信會為整個自動駕駛行業的發展帶來積極的推動作用。
Q&A
Q1:CoIRL-AD自動駕駛系統是如何同時進行模仿學習和強化學習的?
A:CoIRL-AD在AI系統內部設置了兩個獨立的"駕駛員"——模仿駕駛員和探索駕駛員。模仿駕駛員專門學習專家的標準駕駛行為,而探索駕駛員通過在虛擬環境中試錯來積累經驗。兩個駕駛員會定期比較表現,優秀的一方會向較弱的一方傳授經驗,實現知識共享。
Q2:這種雙重學習方法比傳統自動駕駛系統有什么優勢?
A:傳統系統只會模仿,遇到訓練數據中沒有的情況就容易出錯。CoIRL-AD系統碰撞率比傳統方法降低了18%,在罕見場景和跨城市部署時表現更好。就像既會背書又會獨立思考的學生,比只會背書的學生適應能力更強。
Q3:CoIRL-AD系統的反向規劃是什么意思?
A:傳統系統是"從近到遠"規劃,先決定眼前怎么走再考慮遠處目標。CoIRL-AD采用"從遠到近"的反向規劃,先確定最終目的地,再決定具體的轉彎變道動作。這更符合人類開車的思維習慣,讓AI的駕駛決策更加合理。





京公網安備 11011402013531號