![]()
這項(xiàng)由螞蟻集團(tuán)Venus團(tuán)隊(duì)聯(lián)合iMean AI公司共同完成的研究發(fā)表于2024年12月,研究論文編號(hào)為arXiv:2512.16501v1。該研究團(tuán)隊(duì)由來(lái)自螞蟻集團(tuán)的周北桐、黃哲瀟、郭遠(yuǎn)、顧張軒等多位研究員以及iMean AI的孔德韓、尚彥一等研究人員組成,項(xiàng)目由螞蟻集團(tuán)的沈舒恒博士領(lǐng)導(dǎo)。有興趣深入了解的讀者可以通過(guò)論文編號(hào)arXiv:2512.16501v1查詢(xún)完整論文。
當(dāng)你用手機(jī)點(diǎn)擊一個(gè)APP圖標(biāo),或者在電腦上尋找某個(gè)按鈕時(shí),這些看似簡(jiǎn)單的操作背后其實(shí)隱藏著復(fù)雜的視覺(jué)理解過(guò)程。你的眼睛需要在密密麻麻的界面元素中精準(zhǔn)定位目標(biāo),大腦要理解各種圖標(biāo)的含義,還要根據(jù)空間位置關(guān)系找到正確的位置。現(xiàn)在,人工智能也在努力學(xué)會(huì)這種能力,就像訓(xùn)練一個(gè)從未見(jiàn)過(guò)電腦界面的人學(xué)會(huì)如何操作各種軟件一樣。
螞蟻集團(tuán)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)關(guān)鍵問(wèn)題:現(xiàn)有的AI測(cè)試標(biāo)準(zhǔn)就像只考察學(xué)生能否認(rèn)識(shí)單個(gè)漢字,卻從未測(cè)試他們能否讀懂一篇完整文章。大多數(shù)GUI(圖形用戶界面)測(cè)試基準(zhǔn)要么規(guī)模太小,就像只有幾十道題的考試,要么過(guò)于專(zhuān)業(yè)化,就像只測(cè)試醫(yī)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)而忽略了日常對(duì)話能力。更重要的是,這些測(cè)試往往只關(guān)注最基礎(chǔ)的"找到紅色按鈕"這類(lèi)簡(jiǎn)單任務(wù),卻忽略了真實(shí)應(yīng)用中需要的復(fù)雜推理能力,比如"找到價(jià)格最便宜的那個(gè)商品并加入購(gòu)物車(chē)"。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了VenusBench-GD,這是目前世界上最大規(guī)模、最全面的GUI理解能力測(cè)試基準(zhǔn)。這就像為AI設(shè)計(jì)了一套從小學(xué)到大學(xué)的完整課程體系,不僅要測(cè)試基礎(chǔ)的視覺(jué)識(shí)別能力,還要考察復(fù)雜的邏輯推理和問(wèn)題解決能力。
這套測(cè)試系統(tǒng)覆蓋了我們?nèi)粘J褂玫乃兄饕脚_(tái):手機(jī)應(yīng)用、網(wǎng)頁(yè)界面和電腦軟件,總共包含97個(gè)不同的應(yīng)用程序,涵蓋創(chuàng)意設(shè)計(jì)、辦公效率、電子商務(wù)、娛樂(lè)、金融、知識(shí)獲取、社交、旅行和工具類(lèi)等10個(gè)主要領(lǐng)域。研究團(tuán)隊(duì)花費(fèi)三個(gè)月時(shí)間,動(dòng)員20位專(zhuān)業(yè)標(biāo)注員,精心制作了6166個(gè)測(cè)試樣本,每個(gè)樣本都經(jīng)過(guò)多輪嚴(yán)格的質(zhì)量檢驗(yàn)。
VenusBench-GD的最大創(chuàng)新在于建立了分層次的評(píng)估體系。基礎(chǔ)任務(wù)就像教會(huì)AI"看圖識(shí)字",包括元素識(shí)別、空間定位和視覺(jué)特征理解三個(gè)方面。元素識(shí)別類(lèi)似于教AI認(rèn)識(shí)界面上的各種"零件",比如按鈕、文本框、下拉菜單等;空間定位則是教會(huì)AI理解相對(duì)位置關(guān)系,比如"找到搜索框右邊的那個(gè)按鈕";視覺(jué)特征理解讓AI學(xué)會(huì)根據(jù)外觀描述找到目標(biāo),比如"找到那個(gè)心形圖標(biāo)"。
高級(jí)任務(wù)則更像是考察AI的"綜合應(yīng)用能力"。功能推理任務(wù)要求AI理解不同界面元素的實(shí)際功能,就像你需要知道那個(gè)"X"按鈕是用來(lái)關(guān)閉窗口的,而不僅僅是識(shí)別它的外形。邏輯推理任務(wù)則更進(jìn)一步,要求AI能夠進(jìn)行多步驟的思考和比較,比如"找到評(píng)分最高但價(jià)格適中的那家餐廳"。最有趣的是拒絕應(yīng)答任務(wù),這是在測(cè)試AI是否具備"實(shí)事求是"的品質(zhì)——當(dāng)用戶的要求在當(dāng)前界面中根本無(wú)法完成時(shí),AI應(yīng)該誠(chéng)實(shí)地說(shuō)"找不到",而不是胡亂猜測(cè)一個(gè)答案。
研究團(tuán)隊(duì)在數(shù)據(jù)質(zhì)量控制方面下了很大功夫。他們開(kāi)發(fā)了一套"人機(jī)協(xié)作"的標(biāo)注流程,先讓人工專(zhuān)家標(biāo)記出界面中的重要元素,然后用AI模型生成對(duì)應(yīng)的自然語(yǔ)言指令,最后再由人工專(zhuān)家驗(yàn)證指令與元素是否匹配。這個(gè)過(guò)程就像制作一道精美的菜肴,需要選材、配菜、烹飪、品嘗等多個(gè)環(huán)節(jié)的精心把控。
為了確保測(cè)試結(jié)果的可靠性,研究團(tuán)隊(duì)還進(jìn)行了"盲測(cè)"實(shí)驗(yàn)。他們從多個(gè)現(xiàn)有基準(zhǔn)中隨機(jī)抽取了3000個(gè)樣本,打亂順序后讓標(biāo)注員重新評(píng)估質(zhì)量,就像讓老師在不知道學(xué)生姓名的情況下批改試卷一樣。結(jié)果顯示,VenusBench-GD的標(biāo)注錯(cuò)誤率僅為2.6%,遠(yuǎn)低于其他基準(zhǔn)的10-25%錯(cuò)誤率。
在實(shí)驗(yàn)評(píng)估部分,研究團(tuán)隊(duì)測(cè)試了目前最先進(jìn)的多種AI模型,包括GPT-4o、Claude等通用多模態(tài)模型,以及專(zhuān)門(mén)為GUI任務(wù)設(shè)計(jì)的特化模型。測(cè)試結(jié)果揭示了一個(gè)有趣的現(xiàn)象:在基礎(chǔ)任務(wù)上,通用AI模型的表現(xiàn)已經(jīng)追上甚至超越了專(zhuān)門(mén)的GUI模型。比如Qwen3-VL-8B模型在基礎(chǔ)任務(wù)上達(dá)到了76.96%的準(zhǔn)確率,表現(xiàn)相當(dāng)出色。這就像一個(gè)全科醫(yī)生在處理常見(jiàn)疾病時(shí),效果并不比專(zhuān)科醫(yī)生差多少。
然而,在高級(jí)任務(wù)上,專(zhuān)業(yè)化的GUI模型仍然保持明顯優(yōu)勢(shì)。在功能推理和邏輯推理任務(wù)中,像Holo1.5-72B和UI-Venus-Ground-72B這樣的專(zhuān)業(yè)模型分別達(dá)到了40%和68%的準(zhǔn)確率,明顯優(yōu)于通用模型。這說(shuō)明專(zhuān)業(yè)化訓(xùn)練在復(fù)雜任務(wù)中仍然具有不可替代的價(jià)值,就像專(zhuān)科醫(yī)生在處理疑難雜癥時(shí)的專(zhuān)業(yè)優(yōu)勢(shì)一樣。
最令人意外的發(fā)現(xiàn)出現(xiàn)在拒絕應(yīng)答任務(wù)中。大多數(shù)專(zhuān)業(yè)GUI模型在這個(gè)任務(wù)上的表現(xiàn)近乎為零,只有UI-Venus-Ground-72B達(dá)到了51.33%的準(zhǔn)確率。這暴露了當(dāng)前AI模型的一個(gè)致命弱點(diǎn):過(guò)度自信和缺乏自我認(rèn)知。就像一個(gè)總是不懂裝懂的學(xué)生,即使面對(duì)無(wú)法解答的問(wèn)題也要硬著頭皮給出答案,而不是誠(chéng)實(shí)地承認(rèn)"我不知道"。
研究團(tuán)隊(duì)還特別關(guān)注了多語(yǔ)言環(huán)境下的表現(xiàn)。他們發(fā)現(xiàn)模型在中文指令下的表現(xiàn)通常比英文更好,這可能與訓(xùn)練數(shù)據(jù)的分布有關(guān)。比如Qwen3-VL-4B模型在基礎(chǔ)任務(wù)上從英文環(huán)境的72.54%提升到中文環(huán)境的81.32%,顯示出明顯的語(yǔ)言偏好。
為了驗(yàn)證測(cè)試基準(zhǔn)的有效性,研究團(tuán)隊(duì)還進(jìn)行了人類(lèi)表現(xiàn)對(duì)比實(shí)驗(yàn)。結(jié)果顯示人類(lèi)在高級(jí)任務(wù)上的表現(xiàn)顯著超越所有AI模型:在邏輯推理、功能理解和拒絕應(yīng)答三個(gè)方面分別超出當(dāng)前最佳AI模型41.6%、11.8%和17.8%。這說(shuō)明AI在GUI理解方面還有很大的提升空間,就像學(xué)生與老師之間仍然存在明顯的能力差距。
通過(guò)深入的錯(cuò)誤分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了AI模型的幾個(gè)主要問(wèn)題。首先是語(yǔ)義理解偏差,AI往往難以將抽象概念與具體視覺(jué)元素聯(lián)系起來(lái),比如無(wú)法理解"文本對(duì)齊"這個(gè)概念對(duì)應(yīng)的圖標(biāo)樣式。其次是空間定位不準(zhǔn)確,雖然能夠大致判斷區(qū)域位置,但在密集界面中難以精確區(qū)分相鄰元素。第三是視覺(jué)特征組合能力不足,當(dāng)需要同時(shí)考慮顏色、形狀、位置等多個(gè)屬性時(shí)容易出錯(cuò)。最重要的是缺乏多步推理能力,面對(duì)需要比較、篩選、排序的復(fù)雜任務(wù)時(shí)往往采用"貪心策略",只關(guān)注第一個(gè)符合條件的選項(xiàng)而忽略全局最優(yōu)解。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了學(xué)術(shù)范疇。隨著AI助手越來(lái)越多地參與我們的日常數(shù)字生活,GUI理解能力將成為衡量AI實(shí)用性的重要指標(biāo)。一個(gè)真正智能的AI助手不僅要能聽(tīng)懂你說(shuō)的話,還要能在復(fù)雜的應(yīng)用界面中準(zhǔn)確執(zhí)行你的指令,就像一個(gè)貼心的秘書(shū)能夠熟練操作各種辦公軟件一樣。
VenusBench-GD的發(fā)布標(biāo)志著GUI智能理解研究進(jìn)入了一個(gè)新階段。它不僅提供了更嚴(yán)格的評(píng)估標(biāo)準(zhǔn),也為研究者指出了未來(lái)的發(fā)展方向。隨著這套測(cè)試基準(zhǔn)的廣泛應(yīng)用,我們有理由期待AI在圖形界面理解方面取得更大突破,最終實(shí)現(xiàn)真正智能的人機(jī)交互體驗(yàn)。
說(shuō)到底,這項(xiàng)研究就像為AI設(shè)計(jì)了一套"駕照考試",不僅要測(cè)試基本的操作技能,還要考察復(fù)雜情況下的應(yīng)變能力。只有通過(guò)這樣全面而嚴(yán)格的考核,AI才能真正成為我們值得信賴(lài)的數(shù)字助手。當(dāng)然,從目前的測(cè)試結(jié)果來(lái)看,AI們距離拿到"滿分駕照"還需要繼續(xù)努力,但這個(gè)方向無(wú)疑是正確的。歸根結(jié)底,這不僅是技術(shù)進(jìn)步的需要,更是我們邁向更智能、更便捷數(shù)字生活的必經(jīng)之路。
Q&A
Q1:VenusBench-GD與現(xiàn)有的GUI測(cè)試基準(zhǔn)有什么不同?
A:VenusBench-GD是目前規(guī)模最大、最全面的GUI理解測(cè)試基準(zhǔn),包含6166個(gè)測(cè)試樣本,覆蓋手機(jī)、網(wǎng)頁(yè)、電腦三大平臺(tái)的97個(gè)應(yīng)用。與現(xiàn)有基準(zhǔn)相比,它建立了分層評(píng)估體系,不僅測(cè)試基礎(chǔ)的元素識(shí)別能力,還考察復(fù)雜的邏輯推理和功能理解能力,標(biāo)注錯(cuò)誤率僅為2.6%,遠(yuǎn)低于其他基準(zhǔn)的10-25%。
Q2:為什么專(zhuān)業(yè)的GUI模型在拒絕應(yīng)答任務(wù)上表現(xiàn)這么差?
A:這暴露了當(dāng)前AI模型過(guò)度自信和缺乏自我認(rèn)知的問(wèn)題。大多數(shù)專(zhuān)業(yè)GUI模型在拒絕應(yīng)答任務(wù)上準(zhǔn)確率接近零,說(shuō)明它們無(wú)法識(shí)別不可能完成的指令,總是試圖強(qiáng)行給出答案而不是誠(chéng)實(shí)地說(shuō)"找不到"。這就像一個(gè)不懂裝懂的學(xué)生,即使面對(duì)無(wú)法解答的問(wèn)題也要硬著頭皮回答。
Q3:VenusBench-GD測(cè)試結(jié)果對(duì)普通用戶有什么意義?
A:測(cè)試結(jié)果表明當(dāng)前AI在GUI理解方面還有很大提升空間,人類(lèi)在復(fù)雜任務(wù)上仍明顯超越AI模型。這意味著現(xiàn)階段的AI助手在處理復(fù)雜界面操作時(shí)可能出錯(cuò),用戶需要保持適當(dāng)?shù)谋O(jiān)督。同時(shí),這也預(yù)示著未來(lái)AI助手的巨大潛力,隨著技術(shù)進(jìn)步,我們將擁有更智能、更可靠的數(shù)字助手。





京公網(wǎng)安備 11011402013531號(hào)