Salesforce與南加州大學(xué)的研究人員共同開(kāi)發(fā)了一項(xiàng)名為 CoAct-1 的突破性技術(shù),旨在通過(guò)結(jié)合編碼和圖形用戶(hù)界面(GUI)操作的優(yōu)勢(shì),顯著提升AI代理在計(jì)算機(jī)上執(zhí)行復(fù)雜任務(wù)的能力。這一混合方法旨在克服傳統(tǒng)GUI代理的脆弱性,為更強(qiáng)大、可擴(kuò)展的自動(dòng)化鋪平道路。
傳統(tǒng)AI代理的痛點(diǎn):長(zhǎng)任務(wù)與誤點(diǎn)擊
現(xiàn)有的計(jì)算機(jī)AI代理通常依賴(lài)視覺(jué)語(yǔ)言模型(VLM)來(lái)感知屏幕并模擬鼠標(biāo)鍵盤(pán)操作。雖然這類(lèi)“點(diǎn)擊式”代理能執(zhí)行各種任務(wù),但在面對(duì)辦公生產(chǎn)力套件等具有密集菜單和復(fù)雜工作流程的應(yīng)用時(shí),它們往往表現(xiàn)不佳。研究人員指出,在這些場(chǎng)景中,單一的誤點(diǎn)擊或?qū)I元素的誤解,都可能導(dǎo)致整個(gè)任務(wù)失敗。
為了應(yīng)對(duì)這一挑戰(zhàn),研究人員曾嘗試?yán)酶呒?jí)規(guī)劃器來(lái)增強(qiáng)GUI代理,但這種方法依然無(wú)法解決那些通過(guò)幾行代碼就能更直接、更可靠地完成的操作。
CoAct-1:一個(gè)多智能體協(xié)作的混合系統(tǒng)
為解決這些限制,CoAct-1系統(tǒng)應(yīng)運(yùn)而生。其核心理念是“將GUI操作的直觀(guān)優(yōu)勢(shì)與通過(guò)代碼直接進(jìn)行系統(tǒng)交互的精確性、可靠性和效率相結(jié)合”。該系統(tǒng)由一個(gè)由三個(gè)專(zhuān)門(mén)代理組成的團(tuán)隊(duì)協(xié)作完成任務(wù):
編排器(Orchestrator):作為中央規(guī)劃器,它負(fù)責(zé)將用戶(hù)的總體目標(biāo)分解為子任務(wù),并分配給最合適的代理。
程序員(Programmer):負(fù)責(zé)編寫(xiě)和執(zhí)行Python或Bash腳本,處理文件管理或數(shù)據(jù)處理等后端操作。
GUI 操作員(GUI Operator):基于VLM,專(zhuān)門(mén)處理需要點(diǎn)擊按鈕或?qū)Ш浇缑娴那岸巳蝿?wù)。
這種動(dòng)態(tài)委托機(jī)制使得CoAct-1能夠策略性地繞過(guò)低效的GUI操作,轉(zhuǎn)而采用更穩(wěn)健、更高效的代碼執(zhí)行,同時(shí)保留視覺(jué)交互的必要性。整個(gè)工作流程是迭代的,每個(gè)代理完成子任務(wù)后都會(huì)向編排器匯報(bào),由其決定下一步行動(dòng)。
性能飛躍:更快、更高效
研究人員在 OSWorld 基準(zhǔn)測(cè)試上對(duì)CoAct-1進(jìn)行了測(cè)試,該基準(zhǔn)包含了369個(gè)跨瀏覽器、IDE和辦公應(yīng)用程序的實(shí)際任務(wù)。結(jié)果顯示,CoAct-1取得了 60.76%的成功率,樹(shù)立了新的最高水平。
尤其是在操作系統(tǒng)級(jí)任務(wù)和多應(yīng)用程序工作流中,CoAct-1的性能提升最為顯著。更重要的是,該系統(tǒng)的效率也大幅提高,平均只需 10.15步 即可完成任務(wù),遠(yuǎn)少于其他領(lǐng)先的純GUI代理所需的15.22步。研究人員指出,更少的步驟不僅能加快任務(wù)完成速度,還能最大限度地減少出錯(cuò)的機(jī)會(huì),從而實(shí)現(xiàn)更高效、更可靠的自動(dòng)化。
從實(shí)驗(yàn)室走向企業(yè):潛在的應(yīng)用與挑戰(zhàn)
這項(xiàng)技術(shù)擁有巨大的企業(yè)應(yīng)用潛力。Salesforce應(yīng)用AI研究總監(jiān) Ran Xu 指出,客戶(hù)支持、銷(xiāo)售勘探、自動(dòng)化簿記和營(yíng)銷(xiāo)活動(dòng)管理等領(lǐng)域都是完美的用例。在這些場(chǎng)景中,企業(yè)需要處理有API和無(wú)API的多種工具,而CoAct-1能夠靈活利用代碼和屏幕,提供全面的自動(dòng)化解決方案。
然而,將CoAct-1從實(shí)驗(yàn)室推向企業(yè)環(huán)境也面臨挑戰(zhàn),包括應(yīng)對(duì)遺留軟件、確保安全性和人工監(jiān)督的必要性。徐強(qiáng)調(diào),需要通過(guò)在沙盒環(huán)境中訓(xùn)練來(lái)提高代理的適應(yīng)性,并建立強(qiáng)大的訪(fǎng)問(wèn)控制和安全護(hù)欄,以防止惡意代碼執(zhí)行。最終,在可預(yù)見(jiàn)的未來(lái),“人在環(huán)”(human-in-the-loop) 的模式將是確保代理安全、可靠運(yùn)行的關(guān)鍵。





京公網(wǎng)安備 11011402013531號(hào)