![]()
這項由香港大學的陸俊杰、徐藝恒、王俊力等研究者領導,聯合阿里巴巴Qwen團隊的黃斌源、林俊洋等專家共同完成的研究發表于2025年10月,論文編號為arXiv:2510.19488v1。這是一項關于如何讓人工智能學會使用電腦的突破性研究,有興趣深入了解的讀者可以通過該編號查詢完整論文。
當我們看到一個孩子第一次學習使用電腦時,通常是通過觀察大人的操作,然后模仿點擊、打字、滾動等動作。現在,研究人員想讓人工智能也能通過這種方式學習,但遇到了一個巨大的挑戰:雖然網上有數百萬個電腦操作教程視頻,但這些視頻就像是無聲電影一樣,我們能看到鼠標在移動、按鈕被點擊,卻無法直接知道具體點擊的坐標或者輸入的文字內容。
香港大學的研究團隊提出了一個創新的解決方案,他們稱之為VideoAgentTrek。這個系統就像是一個非常聰明的"視頻翻譯官",能夠自動觀看YouTube上的電腦教程視頻,然后把這些隱含的操作信息翻譯成AI能夠理解和學習的具體指令。
研究團隊開發了一個叫做Video2Action的關鍵技術模塊,它的工作原理可以比作一個經驗豐富的電腦老師在觀看學生操作錄像。這個"老師"有兩項特殊技能:首先,它能精確識別視頻中什么時候發生了操作,比如在第3.5秒到5.5秒之間用戶進行了打字操作;其次,它能準確推斷出這些操作的具體內容,比如鼠標點擊的確切坐標是(350, 200),或者用戶輸入的文字是"hello world"。
為了獲得訓練數據,研究團隊像是在進行一場大規模的"視頻考古"工作。他們從YouTube收集了55000個教程視頻,總時長約10000小時,涵蓋從Excel表格操作到軟件安裝的各種電腦使用場景。為了確保視頻質量,他們還開發了一個叫做ScreenFilter的篩選工具,這個工具就像是一個專門的"質檢員",能夠自動識別哪些視頻片段包含真正的電腦界面操作,過濾掉那些只是講解PPT或者純粹聊天的內容。
經過ScreenFilter的篩選,最終保留了約7377小時的高質量GUI交互視頻。這些視頻按照內容類型進行了分類:操作系統相關的占35.7%,專業軟件使用占18.9%,日常辦公應用占17.6%,工作流程演示占16.2%,其余為7.1%。這種分布確保了訓練數據的廣泛覆蓋性。
Video2Action模塊的工作過程可以分為三個步驟,就像一個熟練的秘書在整理會議記錄。第一步是"動作事件檢測",系統會仔細觀看視頻,標記出每個操作動作的精確時間段,比如"在1.5到2.0秒之間發生了點擊動作"。第二步是"動作參數化",系統會分析這些時間段內的具體操作內容,推斷出點擊的坐標、輸入的文字等詳細參數。第三步是"內心獨白生成",系統會為每個操作生成一段解釋性的文字,說明為什么要進行這個操作,就像是操作者的內心想法。
研究團隊使用了Qwen2.5-VL-7B作為基礎模型進行訓練。對于動作事件檢測,他們使用了154小時的標注數據進行訓練,這些數據來自OpenCUA項目,包含了77萬多個精確標注的GUI事件。檢測模型在測試中表現出色,整體精確率達到88%,召回率為70%。其中,點擊和滾動等基于鼠標指針的操作識別效果最好,而按鍵操作由于視覺線索較少,識別難度相對較大。
對于動作參數化任務,研究團隊訓練了512000個視頻片段。他們采用了動態幀率策略來平衡效率和準確性:對于短暫的操作(如點擊),使用較高的幀率確保捕捉細節;對于較長的操作(如打字),則使用較低的幀率節省計算資源。在實際測試中,該模塊在500個樣本的人工評估中表現良好,點擊操作的準確率達到71.3%,滾動操作達到73.5%。
通過Video2Action處理39000個YouTube視頻后,研究團隊最終獲得了152萬個交互步驟的訓練數據,相當于約260億個訓練詞匯。這個數據規模遠超之前的人工標注數據集,而且覆蓋了Windows、macOS、Web平臺上數百種應用程序的操作模式。
在模型訓練方面,研究團隊采用了兩階段策略。第一階段是"繼續預訓練",讓模型在大規模的視頻挖掘數據上學習基礎的GUI交互模式,就像讓學生先大量閱讀各種操作手冊。第二階段是"監督微調",使用高質量的人工標注數據進行精細調整,就像讓學生在老師指導下練習具體操作。
實驗結果令人印象深刻。在OSWorld-Verified基準測試中,僅使用監督微調的基準模型任務成功率為9.3%,而加入VideoAgentTrek預訓練后,成功率提升到15.8%,相對提升幅度達到70%。在AgentNetBench測試中,步驟準確率從64.1%提升到69.3%。特別值得注意的是,經過視頻預訓練的模型在給定更多操作步驟時表現出更好的"測試時擴展"能力,任務成功率從20步預算的14.13%提升到50步預算的15.78%,而未經視頻預訓練的模型在增加步驟后性能沒有提升。
研究團隊進一步分析了數據規模的影響。他們發現,隨著視頻預訓練數據量的增加,模型性能呈現穩定的提升趨勢。使用50%的數據時,AgentNetBench步驟成功率為68.1%,OSWorld-Verified任務成功率為13.3%;使用100%數據時,性能進一步提升至69.3%和15.7%。這表明更大規模的視頻數據能夠帶來更好的性能。
VideoAgentTrek的一個重要優勢是能夠提供更長的操作軌跡。傳統的人工標注數據集平均軌跡長度通常在5-18步之間,而VideoAgentTrek數據集的平均軌跡長度達到39.25步,其中42.1%的軌跡超過20步,14.5%包含50步或更多。這種長軌跡訓練對于復雜任務的處理至關重要,它讓AI模型學會了如何將復雜任務分解為子目標,在中間失敗時持續嘗試,并有效利用額外的計算預算進行探索和錯誤修正。
在技術細節方面,ScreenFilter使用YOLOv8x模型進行光標檢測,在15000個合成圖像上訓練,F1分數達到89.58%。該工具以1-2幀每秒的速度處理視頻,保留至少80%幀包含光標且持續6秒以上的片段,能夠以每GPU日約840小時的效率進行大規模過濾。
Video2Action的動作事件檢測模塊支持多種操作類型,包括點擊、拖拽、按鍵、滾動、打字等。在訓練數據中,點擊操作占主導地位(67.1%),其次是打字(13.9%)和按鍵(9.4%)。模型能夠處理各種時長的操作,從0.5秒的快速點擊到5秒的長時間打字輸入。
內心獨白生成使用GPT-5 Medium模型,為每個操作步驟生成4-8句的第一人稱解釋。這些解釋包含操作意圖、本地計劃、預期狀態變化等信息,幫助模型更好地理解操作的上下文和目的。生成過程會參考操作前后的關鍵幀、操作類型和參數,以及操作前后各1分鐘的語音轉錄內容。
研究團隊還對不同領域的性能進行了詳細分析。在OSWorld-Verified的各個應用類別中,Chrome瀏覽器相關任務的改善最為顯著,解決任務數從8個增加到15個;工作流程類任務從5個增加到8個;操作系統類任務也有穩定提升。這表明視頻預訓練在各種應用場景中都能帶來實質性的性能提升。
VideoAgentTrek方法的創新之處在于首次實現了從無標注視頻到結構化訓練數據的自動轉換。傳統方法要么依賴昂貴的人工標注,要么局限于有限的模擬環境,而VideoAgentTrek能夠利用互聯網上豐富的教程視頻資源,為計算機使用代理的訓練提供了一種可擴展的替代方案。
這項研究的意義不僅在于技術突破,更在于為AI助手的實用化鋪平了道路。未來,我們可能會看到更智能的AI助手,它們能夠通過觀看在線教程學習新的軟件操作,然后幫助用戶完成復雜的計算機任務。這種能力將極大地降低普通用戶使用復雜軟件的門檻,讓更多人能夠享受到數字化工具帶來的便利。
說到底,VideoAgentTrek展示了一種全新的AI學習范式:通過模仿人類的學習方式,讓AI從觀察中學習,而不是僅僅依賴預先標注的數據。這種方法不僅更接近人類的學習過程,也為AI技術的發展開辟了更廣闊的可能性。正如人類通過觀察和模仿學會使用工具一樣,AI也可以通過這種方式不斷擴展自己的能力邊界。對于普通用戶而言,這意味著未來的AI助手將更加智能和實用,能夠真正成為我們數字生活中的得力伙伴。
Q&A
Q1:VideoAgentTrek是什么?
A:VideoAgentTrek是香港大學和阿里巴巴團隊開發的AI訓練系統,它能自動從YouTube教程視頻中提取電腦操作信息,讓AI學會使用電腦,就像人類通過看視頻學習一樣。
Q2:這個系統相比傳統方法有什么優勢?
A:傳統方法需要大量人工標注數據,成本高且規模有限。VideoAgentTrek能直接利用網上現成的教程視頻,成本低廉且數據規模龐大,從39000個視頻中自動提取了152萬個操作步驟。
Q3:VideoAgentTrek訓練的AI表現如何?
A:在標準測試中,使用VideoAgentTrek訓練的AI任務成功率從9.3%提升到15.8%,步驟準確率從64.1%提升到69.3%,并且在復雜長任務上表現更加出色。





京公網安備 11011402013531號