iDLab團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
當(dāng)大數(shù)據(jù)席卷各行各業(yè),控制理論也迎來新的拐點(diǎn):從依賴模型到依賴數(shù)據(jù)。
但是,在數(shù)據(jù)驅(qū)動(dòng)控制領(lǐng)域,卻缺乏一種標(biāo)準(zhǔn)化的數(shù)據(jù)表示形式。
針對(duì)這一問題,清華大學(xué)李升波教授課題組(iDLab)首次將現(xiàn)代控制理論中的標(biāo)準(zhǔn)型概念引入數(shù)據(jù)驅(qū)動(dòng)控制(datatic control)范式,提出了一種基于數(shù)據(jù)的系統(tǒng)描述新形式。
每個(gè)標(biāo)準(zhǔn)形式的樣本由必要的轉(zhuǎn)移和可插拔的屬性組成,分別用于描述系統(tǒng)變化規(guī)律和人為定義特征。
![]()
不僅如此,該數(shù)據(jù)標(biāo)準(zhǔn)型還可根據(jù)算法需求定制屬性,顯著加速控制器設(shè)計(jì),為提高數(shù)據(jù)驅(qū)動(dòng)算法效率提供了新的思路。
目前,該成果已發(fā)表于ACC2025。
從模型標(biāo)準(zhǔn)型到數(shù)據(jù)標(biāo)準(zhǔn)型
人工智能的蓬勃發(fā)展,離不開數(shù)據(jù)這一核心支柱。
近年來,隨著人工智能技術(shù)的廣泛應(yīng)用,以數(shù)據(jù)為核心的系統(tǒng)表征方法迅速滲透到控制領(lǐng)域。
控制系統(tǒng)的設(shè)計(jì)方法正迎來一場從模型驅(qū)動(dòng)向數(shù)據(jù)驅(qū)動(dòng)的范式變革,即從傳統(tǒng)的模型驅(qū)動(dòng)控制(modelic control,即model-driven control)到數(shù)據(jù)驅(qū)動(dòng)控制(datatic control,即data-driven control)。
![]()
圖1:兩種控制范式對(duì)比
模型驅(qū)動(dòng)控制(上方路徑)首先利用系統(tǒng)辨識(shí)來擬合一個(gè)模型,然后用這個(gè)模型來合成控制器。
數(shù)據(jù)驅(qū)動(dòng)控制(下方路徑)則直接利用數(shù)據(jù)來求解控制器。
在模型驅(qū)動(dòng)控制(modelic control)的范式下,模型的標(biāo)準(zhǔn)型是一個(gè)有力工具。
例如,現(xiàn)代控制理論的奠基人魯?shù)婪颉た柭?/strong>(Rudolf E. Kálmán)指出:將狀態(tài)空間模型表示為可控標(biāo)準(zhǔn)型或可觀標(biāo)準(zhǔn)型,無需額外的判斷步驟即可直接確保系統(tǒng)的可控性或可觀性。
此外,現(xiàn)代群論的奠基人之一卡米耶·若爾當(dāng)(Camille Jordan)指出:任何狀態(tài)空間模型都可以轉(zhuǎn)換為約旦標(biāo)準(zhǔn)型,系統(tǒng)矩陣會(huì)變?yōu)閷?duì)角方陣,其對(duì)角線元素代表系統(tǒng)的特征值。
因此,只需檢查所有特征值是否為負(fù),即可輕松驗(yàn)證系統(tǒng)的穩(wěn)定性。更進(jìn)一步,不同的特征值對(duì)應(yīng)著系統(tǒng)不同的模態(tài),這使得控制器設(shè)計(jì)更具針對(duì)性。
數(shù)據(jù)驅(qū)動(dòng)控制(datatic control)范式下的標(biāo)準(zhǔn)型是一個(gè)新問題。
近年來,隨著機(jī)器人、自動(dòng)駕駛等具身智能系統(tǒng)的蓬勃發(fā)展,海量、復(fù)雜的交互數(shù)據(jù)正以前所未有的速度被生成。這不僅為傳統(tǒng)控制算法帶來了巨大挑戰(zhàn),也引出了一個(gè)全新的議題:
在數(shù)據(jù)驅(qū)動(dòng)控制范式下,如何構(gòu)建一個(gè)有效利用大規(guī)模數(shù)據(jù)的標(biāo)準(zhǔn)描述方式?即是否存在數(shù)據(jù)驅(qū)動(dòng)版本的標(biāo)準(zhǔn)型?
數(shù)據(jù)的描述形式直接決定了后續(xù)控制器設(shè)計(jì)算法的運(yùn)行效率和可擴(kuò)展性。
以強(qiáng)化學(xué)習(xí)為例,訓(xùn)練算法通常涉及大量的迭代計(jì)算和高維數(shù)據(jù)處理。
在這一過程中,算法很容易陷入重復(fù)計(jì)算的泥潭,例如在每一步訓(xùn)練迭代中,都重新計(jì)算樣本間的范數(shù)距離、特征相似度等信息。
這種重復(fù)性的計(jì)算不僅耗時(shí),而且對(duì)計(jì)算資源造成了顯著的浪費(fèi),嚴(yán)重制約了算法在現(xiàn)實(shí)世界中的部署和應(yīng)用。
因此,如何高效、標(biāo)準(zhǔn)地組織和描述數(shù)據(jù),以減少冗余計(jì)算、加速算法運(yùn)行,是數(shù)據(jù)驅(qū)動(dòng)控制范式面臨的一項(xiàng)核心挑戰(zhàn)。
類比于模型標(biāo)準(zhǔn)型,該研究首次提出,適用于數(shù)據(jù)驅(qū)動(dòng)控制系統(tǒng)的標(biāo)準(zhǔn)描述形式:每條樣本數(shù)據(jù)包含兩個(gè)部分(如圖2所示):
![]()
圖2:數(shù)據(jù)標(biāo)準(zhǔn)型示意圖
(1)必要的轉(zhuǎn)移部分
,即<當(dāng)前狀態(tài)
,當(dāng)前動(dòng)作
![]()
,下一狀態(tài)
![]()
(2)可插拔的屬性部分,例如獎(jiǎng)勵(lì)信號(hào)或其他人工設(shè)計(jì)特征。
前者蘊(yùn)含了控制器設(shè)計(jì)必要的系統(tǒng)的動(dòng)力學(xué)信息,后者可以根據(jù)控制器設(shè)計(jì)算法的需求來靈活定制與取用,降低存儲(chǔ)壓力,加速算法運(yùn)行,即提高控制器設(shè)計(jì)效率。
仿真實(shí)例
該研究給出了一個(gè)典型的數(shù)據(jù)標(biāo)準(zhǔn)型應(yīng)用實(shí)例。對(duì)于給定數(shù)據(jù)集,為了使得設(shè)計(jì)出的控制器效果可靠,許多強(qiáng)化學(xué)習(xí)算法存在近鄰搜索的需求。
例如給定回放的樣本狀態(tài)
![]()
,算法需要在線計(jì)算當(dāng)前策略
![]()
的行為與數(shù)據(jù)集行為之間的距離:
![]()
由于需要遍歷數(shù)據(jù)集中每個(gè)樣本來尋找最近鄰,計(jì)算負(fù)擔(dān)非常沉重。
在數(shù)據(jù)標(biāo)準(zhǔn)型的視角下,對(duì)于每個(gè)樣本,可以通過提前定制一種特殊的空間屬性,顯著加速近鄰搜索這一過程。
具體地,如圖3所示,提前在樣本空間中約定n個(gè)錨點(diǎn)
![]()
,對(duì)于每個(gè)樣本,計(jì)算其與各錨點(diǎn)的距離保存為空間屬性。
![]()
圖3:標(biāo)準(zhǔn)型的空間屬性示意圖 圖3:標(biāo)準(zhǔn)型的空間屬性示意圖
當(dāng)每個(gè)樣本都具備空間屬性后,該研究給出如下空間篩選條件定理來加速近鄰搜索。
定理1(空間篩選條件)
考慮一個(gè)包含
個(gè)錨點(diǎn)的數(shù)據(jù)集。記C為一個(gè)選定的樣本,而S為任意其他樣本。若S位于C的R-鄰域范圍內(nèi),則一個(gè)需要滿足的
必要條件為:
其中
表示表示邏輯與運(yùn)算符。
![]()
圖4:空間標(biāo)準(zhǔn)型的空間篩選機(jī)制示意圖
應(yīng)用這一空間篩選條件,只需要一行判斷指令,就可以快速縮小候選范圍(如圖4所示),顯著加速最近鄰搜索的過程,從而提高算法的整體運(yùn)行效率。
該研究在D4RL數(shù)據(jù)集的Hopper環(huán)境下進(jìn)行了實(shí)驗(yàn),對(duì)引入空間標(biāo)準(zhǔn)型前后的訓(xùn)練時(shí)間進(jìn)行了比較。
圖5清晰地展示了這一改進(jìn):基礎(chǔ)版本(藍(lán)色曲線)的訓(xùn)練耗時(shí)約20小時(shí),而應(yīng)用了空間標(biāo)準(zhǔn)型篩選機(jī)制(橙色曲線)后,訓(xùn)練時(shí)間縮短至僅7小時(shí),實(shí)現(xiàn)了三倍的效率提升。
![]()
圖5:應(yīng)用空間標(biāo)準(zhǔn)型前后的訓(xùn)練時(shí)間對(duì)比
總的來說,數(shù)據(jù)標(biāo)準(zhǔn)型可以極小的存儲(chǔ)空間開銷,換取顯著的時(shí)間效率優(yōu)勢。
除此之外,它還可以根據(jù)算法需求靈活插拔屬性部分來降低存儲(chǔ)需求,具備擴(kuò)展性,為提高數(shù)據(jù)驅(qū)動(dòng)控制算法效率提供了新的方向。
論文鏈接:https://ieeexplore.ieee.org/document/11107988





京公網(wǎng)安備 11011402013531號(hào)