![]()
這項(xiàng)由瑞典哥德堡大學(xué)(Chalmers University of Technology)和哥德堡大學(xué)(University of Gothenburg)的岳忠琪(Zhongqi Yue)和弗雷德里克·約翰松(Fredrik D. Johansson)領(lǐng)導(dǎo),與SAP公司王維石(Weishi Wang)、丹尼爾·達(dá)爾邁爾(Daniel Dahlmeier)以及浙江大學(xué)詹云大川(Yundaichuan Zhan)、李俊城(Juncheng Li)等學(xué)者合作完成的研究,發(fā)表于2025年10月的人工智能頂級會議論文集。該研究提出了一種全新的ExpA(Expanded Action)框架和EARL(ExpA Reinforcement Learning)算法,首次讓大語言模型能夠直接與外部環(huán)境交互,而不是僅僅依靠文本描述。有興趣深入了解的讀者可以通過論文編號arXiv:2510.07581v2查詢完整論文。
目前的大語言模型就像一個被關(guān)在圖書館里的博學(xué)者,雖然知識淵博,但想要操作外界的工具時,只能通過寫紙條的方式來表達(dá)意圖。比如當(dāng)它需要進(jìn)行數(shù)學(xué)計算時,必須寫出"請幫我計算12+34"這樣的文字指令,然后等待外部程序解析這些文字,再執(zhí)行相應(yīng)操作。這種方式不僅效率低下,還容易出錯,就像隔著一層厚厚的玻璃與世界互動。
研究團(tuán)隊(duì)發(fā)現(xiàn)了這個根本性問題:現(xiàn)有的大語言模型將語言推理和環(huán)境操作混合在一起,導(dǎo)致模型既要思考問題,又要學(xué)會如何用特定的格式表達(dá)操作指令。這就好比讓一個廚師在做菜的同時,還要學(xué)會用密碼來告訴助手拿哪個調(diào)料,既增加了復(fù)雜度,又降低了效率。更重要的是,這種方式需要為每種新工具編寫專門的解析程序,限制了模型的靈活性和擴(kuò)展能力。
哥德堡大學(xué)的研究團(tuán)隊(duì)提出了一個革命性的解決方案:ExpA框架。這個框架的核心思想是讓AI模型擁有兩套完全不同的"行動能力"。第一套是傳統(tǒng)的語言能力,用于思考和推理,就像人類的大腦思維活動。第二套則是全新的"直接行動能力",讓模型能夠像人類使用手腳一樣,直接操控外部工具和環(huán)境。
ExpA框架的工作原理可以用一個生動的比喻來理解。傳統(tǒng)的大語言模型就像一個只會寫信的人,想要使用計算器時必須寫信說"請幫我按1,再按+,再按2,再按等號"。而ExpA框架下的模型則像一個真正的人,既可以用大腦思考,也可以直接伸手按計算器上的按鈕。當(dāng)模型在語言環(huán)境中思考時,它會正常進(jìn)行推理和分析。但當(dāng)需要使用外部工具時,它可以發(fā)出一個"路由指令",直接切換到工具操作模式,然后像人類一樣直接操控工具。
這種設(shè)計的巧妙之處在于完全分離了思考和行動兩個過程。模型在思考時專心思考,不用擔(dān)心如何表達(dá)操作指令;在操作工具時專心操作,不用將注意力分散到語言表達(dá)上。這就像讓廚師專心做菜,讓助手專心遞工具,各司其職,效率自然大大提升。
然而,擁有新的行動能力還不夠,關(guān)鍵是如何讓模型學(xué)會在合適的時候使用這些能力。就像給一個人新的工具,他需要練習(xí)才能熟練使用。研究團(tuán)隊(duì)為此開發(fā)了EARL算法,這是一種專門的強(qiáng)化學(xué)習(xí)方法,幫助模型學(xué)會何時以及如何使用新的行動能力。
EARL算法的創(chuàng)新之處在于使用了"反事實(shí)學(xué)習(xí)"的策略。簡單來說,就是讓模型不僅要學(xué)會成功的經(jīng)驗(yàn),還要學(xué)會"如果當(dāng)時我選擇了另一種方法會怎樣"。這就像一個學(xué)習(xí)下棋的人,不僅要記住獲勝的棋局,還要思考"如果我剛才選擇了另一步棋,結(jié)果會不會更好"。通過這種方式,模型能夠更全面地探索各種可能性,發(fā)現(xiàn)那些容易被忽視但實(shí)際很有用的操作策略。
為了驗(yàn)證這個框架的有效性,研究團(tuán)隊(duì)設(shè)計了兩套完全不同類型的測試任務(wù)。第一套是Calc-Bench測試,就像給AI一個功能完整的計算器,看它能否學(xué)會正確使用。這套測試包含了從簡單的算術(shù)運(yùn)算到復(fù)雜的數(shù)學(xué)推理等多種挑戰(zhàn)。第二套是排序測試,更像一個智力游戲:給AI一堆看不見具體數(shù)值的物品,它只能通過"比較"和"交換"兩種操作來將它們排序。
在Calc-Bench測試中,傳統(tǒng)方法的表現(xiàn)就像一個不太熟練的計算器使用者,經(jīng)常出現(xiàn)按錯鍵或者不知道何時該使用計算器的情況。而使用ExpA框架的模型表現(xiàn)得像一個經(jīng)驗(yàn)豐富的數(shù)學(xué)家,不僅能準(zhǔn)確使用計算器,還能根據(jù)問題的復(fù)雜程度靈活決策。在最具挑戰(zhàn)性的Countdown任務(wù)中,ExpA框架的成功率比傳統(tǒng)方法高出了26.3%,這相當(dāng)于從勉強(qiáng)及格提升到了優(yōu)秀水平。
更令人驚喜的是排序測試的結(jié)果。在這個看似簡單但實(shí)際極其復(fù)雜的任務(wù)中,ExpA框架不僅達(dá)到了完美的準(zhǔn)確率,還自主發(fā)現(xiàn)了一種高效的排序算法。這個算法的效率甚至可以與經(jīng)典的計算機(jī)排序算法相媲美,展現(xiàn)了AI系統(tǒng)的創(chuàng)造性學(xué)習(xí)能力。研究團(tuán)隊(duì)將這個AI發(fā)現(xiàn)的算法命名為EARL*,它的運(yùn)行效率非常接近理論最優(yōu)值。
這種創(chuàng)造性體現(xiàn)在算法的設(shè)計策略上。EARL*采用了一種"支點(diǎn)比較"的策略,首先選擇一個元素作為參考點(diǎn),然后依次與其他元素比較,根據(jù)比較結(jié)果構(gòu)建排序關(guān)系,最后通過最少的交換次數(shù)完成排序。這種策略的優(yōu)雅之處在于它能夠根據(jù)比較結(jié)果動態(tài)調(diào)整后續(xù)的比較計劃,避免不必要的重復(fù)比較。
研究團(tuán)隊(duì)還深入分析了ExpA框架成功的原因。他們發(fā)現(xiàn),傳統(tǒng)方法在處理復(fù)雜任務(wù)時容易陷入"語言混亂",即模型在思考問題的同時還要分心處理如何表達(dá)操作指令,導(dǎo)致兩方面都做不好。而ExpA框架通過清晰的職責(zé)分離,讓模型在語言推理時能夠使用更多樣化的"規(guī)劃短語",比如"這個結(jié)果離目標(biāo)還很遠(yuǎn)"或"讓我們嘗試不同的組合"等,顯示出更強(qiáng)的邏輯思維能力。
從技術(shù)實(shí)現(xiàn)的角度來看,ExpA框架的設(shè)計非常巧妙。當(dāng)模型需要從語言環(huán)境切換到工具操作環(huán)境時,系統(tǒng)會自動在對話歷史中添加相應(yīng)的描述信息,比如"開始使用計算器"。這樣既保持了對話的連貫性,又明確標(biāo)記了操作的邊界。同時,新的操作能力通過擴(kuò)展模型的"行動詞匯表"來實(shí)現(xiàn),這些新詞匯的初始權(quán)重設(shè)置為與其對應(yīng)描述詞相同,確保模型能夠快速適應(yīng)新的操作方式。
研究團(tuán)隊(duì)還特別關(guān)注了模型的泛化能力,即學(xué)會使用一種工具后能否快速適應(yīng)其他類似工具。實(shí)驗(yàn)結(jié)果顯示,ExpA框架具有良好的遷移學(xué)習(xí)能力。當(dāng)模型學(xué)會使用基礎(chǔ)計算器后,面對科學(xué)計算器或其他數(shù)學(xué)工具時,能夠快速掌握新功能,而不需要從零開始重新訓(xùn)練。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的突破。它預(yù)示著AI系統(tǒng)與人類協(xié)作方式的根本性變革。在不久的將來,AI助手可能不再局限于回答問題和生成文本,而是能夠直接幫助我們操作各種軟件工具、控制智能設(shè)備,甚至協(xié)助完成復(fù)雜的創(chuàng)造性任務(wù)。
從實(shí)用性角度考慮,ExpA框架為AI應(yīng)用開發(fā)者提供了一個全新的工具箱。開發(fā)者不再需要為每個新工具編寫復(fù)雜的文本解析程序,只需要定義工具的基本操作接口,AI就能夠?qū)W會使用。這大大降低了AI應(yīng)用的開發(fā)難度,也提高了系統(tǒng)的可靠性和擴(kuò)展性。
研究團(tuán)隊(duì)也坦誠地討論了當(dāng)前工作的局限性。由于計算資源的限制,他們的實(shí)驗(yàn)主要基于較小規(guī)模的模型(最大70億參數(shù)),ExpA框架在更大規(guī)模模型上的表現(xiàn)還有待進(jìn)一步驗(yàn)證。此外,當(dāng)前的測試環(huán)境相對簡單,如何在更復(fù)雜、更真實(shí)的環(huán)境中應(yīng)用這個框架,仍然是一個開放性問題。
另一個值得關(guān)注的研究方向是如何優(yōu)化新操作能力的初始化策略。目前的方法雖然有效,但在面對完全陌生的工具時可能需要較長的學(xué)習(xí)時間。研究團(tuán)隊(duì)正在探索更智能的初始化方法,希望能夠讓AI系統(tǒng)更快地適應(yīng)全新的工具和環(huán)境。
展望未來,ExpA框架可能會成為下一代AI系統(tǒng)的標(biāo)準(zhǔn)配置。我們可以想象這樣的場景:AI寫作助手不僅能夠生成文章,還能直接操作文檔編輯軟件進(jìn)行排版;AI數(shù)據(jù)分析師不僅能夠解讀數(shù)據(jù)趨勢,還能直接操作分析工具生成圖表;AI設(shè)計助手不僅能夠提供創(chuàng)意建議,還能直接使用設(shè)計軟件實(shí)現(xiàn)想法。
這種技術(shù)進(jìn)步也提出了新的思考題。當(dāng)AI系統(tǒng)擁有直接操控工具的能力時,如何確保操作的安全性和可控性?如何在提高效率的同時避免過度依賴AI?這些問題需要技術(shù)專家、倫理學(xué)家和政策制定者共同探討解決方案。
哥德堡大學(xué)這項(xiàng)研究的真正價值在于它開辟了一個全新的研究方向。ExpA框架不僅僅是一個技術(shù)改進(jìn),更是對AI系統(tǒng)能力邊界的重新定義。它告訴我們,AI的未來不僅在于理解和生成語言,更在于與物理世界和數(shù)字世界的直接交互。這種交互能力的獲得,標(biāo)志著AI系統(tǒng)向真正的通用人工智能又邁進(jìn)了重要一步。
說到底,這項(xiàng)研究為我們描繪了一個令人興奮的未來圖景:AI不再是被動的問答工具,而是主動的協(xié)作伙伴,能夠理解我們的需求,并直接幫助我們完成各種任務(wù)。雖然這個未來還需要更多的技術(shù)突破和實(shí)踐驗(yàn)證,但ExpA框架無疑為我們指明了正確的方向。對于那些關(guān)注AI技術(shù)發(fā)展趨勢的讀者來說,這項(xiàng)研究提供了寶貴的前瞻性見解,值得持續(xù)關(guān)注其后續(xù)發(fā)展。
Q&A
Q1:ExpA框架和傳統(tǒng)大語言模型有什么本質(zhì)區(qū)別?
A:傳統(tǒng)大語言模型只能通過文本與外部工具交互,就像只會寫紙條指揮別人操作。ExpA框架讓AI擁有兩套能力:既能用語言思考,也能直接操控工具,就像人類既能用大腦思考也能用手操作一樣。
Q2:EARL算法的反事實(shí)學(xué)習(xí)是怎么工作的?
A:EARL算法讓AI不僅學(xué)習(xí)成功經(jīng)驗(yàn),還會思考"如果當(dāng)時選擇另一種方法會怎樣"。這就像下棋高手不僅記住獲勝棋局,還會反思其他走法的可能性,從而更全面地探索各種策略。
Q3:ExpA框架在實(shí)際應(yīng)用中有哪些優(yōu)勢?
A:ExpA框架最大的優(yōu)勢是效率和準(zhǔn)確性的雙重提升。在數(shù)學(xué)計算任務(wù)中成功率提高了26.3%,在排序任務(wù)中甚至發(fā)現(xiàn)了接近理論最優(yōu)的算法。更重要的是,它為每種新工具都不需要編寫專門的解析程序。





京公網(wǎng)安備 11011402013531號