![]()
這項由昆侖萬維Skywork AI團隊開發(fā)的研究成果于2024年12月發(fā)表,論文編號為arXiv:2512.02395v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
想象你有一個超級聰明的助手,不僅能看懂圖片中的每一個細節(jié),還能像資深偵探一樣主動分析線索,甚至能上網(wǎng)查找相關(guān)信息來驗證自己的判斷。這聽起來像科幻電影里的情節(jié),但Skywork AI團隊剛剛讓這個夢想成為了現(xiàn)實。他們開發(fā)出了一個名為Skywork-R1V4的AI助手,這個"數(shù)字偵探"不僅擁有敏銳的"眼力",還具備了前所未有的推理和搜索能力。
在AI發(fā)展的歷程中,大多數(shù)系統(tǒng)都像是單一技能的專家——要么擅長看圖,要么擅長搜索,但很少能將這些能力有機結(jié)合。就好比一個偵探團隊,每個成員都有自己的專長,但缺乏協(xié)調(diào)配合。傳統(tǒng)的AI助手往往面臨三個關(guān)鍵問題:第一,它們通常將圖像分析和網(wǎng)絡(luò)搜索視為兩個完全獨立的任務(wù),就像讓一個近視的偵探單獨工作一樣效率低下;第二,大部分先進系統(tǒng)嚴重依賴復(fù)雜且成本高昂的強化學(xué)習(xí)訓(xùn)練,這種方法不僅費時費力,還經(jīng)常產(chǎn)生不穩(wěn)定的結(jié)果;第三,現(xiàn)有的規(guī)劃模塊往往基于理論假設(shè)而非真實的工具使用經(jīng)驗,就像紙上談兵的作戰(zhàn)計劃一樣缺乏實用性。
Skywork-R1V4的獨特之處在于它完全改變了這種現(xiàn)狀。這個AI助手擁有四項核心技能,就像一個訓(xùn)練有素的超級偵探。首先,它具備多模態(tài)智能規(guī)劃能力,能夠根據(jù)視覺輸入制定結(jié)構(gòu)化的執(zhí)行計劃,將復(fù)雜問題分解為一系列連貫的工具調(diào)用步驟。其次,它掌握了"圖像思維"技術(shù),能夠通過編程方式主動操作圖像——包括裁剪、縮放、對比度調(diào)整、旋轉(zhuǎn)和像素級分析——來迭代優(yōu)化視覺理解并解決模糊問題。第三,當(dāng)內(nèi)部知識不足時,它會執(zhí)行深度搜索,使用三種工具進行多步驟、交叉驗證的網(wǎng)絡(luò)搜索:圖像搜索、文本搜索和完整網(wǎng)頁檢索,有效減少知識密集型任務(wù)中的幻覺問題。最重要的是,它能夠在單個任務(wù)中動態(tài)交替進行圖像操作和搜索,實現(xiàn)真正的交互式、基于感知的推理。
這個系統(tǒng)最令人驚嘆的地方在于,它完全通過監(jiān)督學(xué)習(xí)訓(xùn)練而成,無需依賴任何強化學(xué)習(xí)。研究團隊精心構(gòu)建了一個包含不到3萬個高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集,每個樣本都經(jīng)過嚴格的一致性驗證。這就像是為偵探提供了3萬個真實案例的詳細檔案,每個案例都記錄了從發(fā)現(xiàn)線索到破案的完整過程。
一、像偵探一樣主動分析圖像
傳統(tǒng)的AI看圖就像一個被動的觀察者,只能告訴你圖片中有什么。而Skywork-R1V4更像一個主動的偵探,它不滿足于表面信息,會主動深入挖掘細節(jié)。
當(dāng)面對一張復(fù)雜圖像時,這個AI助手會像經(jīng)驗豐富的偵探一樣制定調(diào)查計劃。比如說,當(dāng)你給它看一張巴黎街景圖并詢問其中是否有狗時,它不會簡單地掃一眼就給出答案。相反,它會先分析整體場景,識別出公園、人群聚集區(qū)等狗狗可能出現(xiàn)的位置,然后有策略地裁剪這些區(qū)域進行詳細檢查。就像偵探會重點搜查嫌疑人可能藏身的地方一樣,AI會重點關(guān)注最有可能找到目標(biāo)物體的圖像區(qū)域。
這種"圖像思維"技術(shù)的核心在于讓AI具備了操作圖像的能力。它可以像使用工具一樣編寫Python代碼來處理圖像,進行各種精確的操作。當(dāng)發(fā)現(xiàn)某個區(qū)域可能包含重要信息但不夠清晰時,它會自動調(diào)整對比度或增強細節(jié)。當(dāng)需要仔細觀察某個小物體時,它會精確裁剪并放大相關(guān)區(qū)域。這個過程是迭代進行的,每一步操作都會根據(jù)前一步的結(jié)果來調(diào)整,就像偵探根據(jù)新發(fā)現(xiàn)的線索調(diào)整調(diào)查方向一樣。
研究團隊為了確保這種能力的可靠性,從多個高質(zhì)量數(shù)據(jù)源收集了分辨率不低于1024×1024的圖像,并使用多個先進模型生成了涵蓋各種操作類型的訓(xùn)練樣本。他們特別注重數(shù)據(jù)質(zhì)量控制,建立了嚴格的過濾機制。每個訓(xùn)練樣本都要經(jīng)過多輪驗證:首先檢查模型的最終答案是否與推理過程一致,然后驗證每一步圖像操作的結(jié)果是否與后續(xù)分析邏輯相符。這種嚴格的質(zhì)量控制確保了AI學(xué)到的都是正確有效的推理模式,而不是錯誤的操作習(xí)慣。
特別值得注意的是,這個系統(tǒng)展現(xiàn)出了令人印象深刻的自我糾錯能力。即使在訓(xùn)練過程中移除了包含錯誤操作的樣本,系統(tǒng)在實際應(yīng)用中仍然能夠自主糾正操作錯誤。這就像一個偵探即使沒有專門學(xué)習(xí)過如何處理特定類型的錯誤,也能憑借經(jīng)驗和直覺在犯錯時及時調(diào)整策略。
二、智能網(wǎng)絡(luò)搜索驗證推理
當(dāng)AI助手遇到超出其知識范圍的問題時,它不會胡亂猜測,而是會像專業(yè)研究員一樣主動查找資料。這種深度搜索能力分為兩個層次,就像偵探處理不同復(fù)雜程度的案件一樣。
對于相對簡單的問題,AI會執(zhí)行基礎(chǔ)搜索。比如看到一張建筑物的照片時,它會先通過圖像搜索識別建筑物的身份,然后進行幾輪文本搜索獲取相關(guān)信息。這個過程就像查閱百科全書一樣直接有效。研究團隊主要使用開源數(shù)據(jù)集中的問題來構(gòu)建這類任務(wù),并建立了嚴格的兩階段過濾機制。第一階段是格式過濾,確保生成的搜索軌跡遵循正確的思考-行動模式。第二階段是答案過濾,通過外部評判模型自動檢驗最終答案是否與標(biāo)準(zhǔn)答案一致。
更令人驚嘆的是系統(tǒng)的增強搜索能力,這就像偵探處理復(fù)雜案件時需要進行深入調(diào)查一樣。對于復(fù)雜問題,AI會進行五輪或更多的搜索,通過多個角度交叉驗證信息,確保結(jié)果的準(zhǔn)確性。為了構(gòu)建這種高級搜索能力,研究團隊開發(fā)了一個創(chuàng)新的數(shù)據(jù)生成方法。
他們將知識庫視為一個龐大的關(guān)系網(wǎng)絡(luò),就像城市中錯綜復(fù)雜的街道系統(tǒng)。AI像一個好奇的探索者,從一個知識點出發(fā),沿著相關(guān)性鏈接前往其他知識點。這個過程被稱為"約束隨機游走"。從一個種子實體開始,AI會分析該實體的核心信息,生成一個初始問題和一個可驗證的簡短答案。然后,它會從當(dāng)前頁面收集內(nèi)部鏈接,這些鏈接就像通往其他知識領(lǐng)域的道路。
為了避免陷入常見或過于寬泛的話題,系統(tǒng)會智能地選擇那些既相關(guān)又具有特異性的鏈接。每選擇一個新的目標(biāo)實體,系統(tǒng)都會提取當(dāng)前實體與目標(biāo)實體之間的關(guān)系,并總結(jié)相關(guān)屬性。然后,它會重寫問題,通過提及相關(guān)目標(biāo)實體和它們之間的關(guān)系來間接描述同一個實體,有時還會添加簡短的描述性線索以保持問題的具體性和明確性。
這種方法最終產(chǎn)生了自然、可執(zhí)行的查詢,這些查詢支持多步推理。為了確保質(zhì)量,每個問題-答案對在被接受之前都要經(jīng)過嚴格的一致性檢查,包括排除禁用實體或別名、確保答案簡潔可驗證,以及消除不符合獨特性或可解釋性要求的實例。
三、文本問題轉(zhuǎn)換為多模態(tài)挑戰(zhàn)
研究團隊還開發(fā)了一種巧妙的方法,將純文本問題轉(zhuǎn)換為需要視覺理解的多模態(tài)問題。這就像是將書面推理題改編為需要觀察實物的實驗題。
這個轉(zhuǎn)換過程充滿了創(chuàng)意。對于每個文本問題,系統(tǒng)會識別出問題中的關(guān)鍵實體,然后為這個實體尋找合適的視覺表現(xiàn)形式。這個過程需要確保圖像不是隨意選擇的裝飾,而是推理過程中的必要組成部分。研究團隊會根據(jù)實體的名稱和特征描述構(gòu)建結(jié)構(gòu)化的搜索條件,通過搜索引擎檢索候選圖像,優(yōu)先選擇那些在視覺上信息豐富且具有代表性的圖片。
選定圖像后,系統(tǒng)會調(diào)用大語言模型重寫原始問題,將明確的實體名稱替換為基于視覺的指代表達。比如,原本詢問"盧浮宮的建筑風(fēng)格是什么"的問題可能會變成"這張圖片中的建筑采用了什么建筑風(fēng)格"。這種轉(zhuǎn)換確保了視覺模態(tài)成為推理過程的重要組成部分,而不是可有可無的附加信息。
四、圖像分析與搜索的無縫融合
Skywork-R1V4最革命性的特點在于它能夠在單個任務(wù)中靈活地交替使用圖像分析和網(wǎng)絡(luò)搜索功能。這就像一個多才多藝的偵探,既能現(xiàn)場勘察又能查閱檔案,還能將兩種技能有機結(jié)合。
在處理復(fù)雜的視覺問題時,AI可能會先裁剪圖像的某個區(qū)域進行詳細分析,然后將分析結(jié)果用作搜索關(guān)鍵詞在網(wǎng)上查找相關(guān)信息,再根據(jù)搜索結(jié)果指導(dǎo)下一步的圖像操作。比如,當(dāng)分析一張包含智能手表的圖片時,AI可能會先裁剪手表區(qū)域,通過圖像搜索識別手表型號,然后搜索該型號的技術(shù)規(guī)格,最后根據(jù)搜索到的信息準(zhǔn)確回答關(guān)于手表特定功能的問題。
這種交替處理的能力需要高質(zhì)量的訓(xùn)練數(shù)據(jù)支持。研究團隊從LiveVQA數(shù)據(jù)集中隨機抽取了3000個樣本,使用先進的AI模型生成交替軌跡。但他們很快發(fā)現(xiàn),模型在視覺感知方面的局限性經(jīng)常導(dǎo)致錯誤的代碼執(zhí)行或不正確的圖像操作。為了解決這個問題,他們使用視覺語言模型自動識別低質(zhì)量樣本并進行過濾,確保保留的樣本都能展示正確的交替推理模式。
五、智能任務(wù)規(guī)劃系統(tǒng)
除了具體的執(zhí)行能力,Skywork-R1V4還具備了出色的任務(wù)規(guī)劃能力。這就像一個經(jīng)驗豐富的項目經(jīng)理,能夠?qū)?fù)雜任務(wù)分解為清晰的執(zhí)行步驟,并確保各步驟之間的邏輯關(guān)系。
這種規(guī)劃能力的訓(xùn)練數(shù)據(jù)來源于前面提到的所有任務(wù)軌跡。研究團隊將這些實際執(zhí)行的軌跡轉(zhuǎn)換為結(jié)構(gòu)化的規(guī)劃格式,每個步驟都包含自然語言描述、相應(yīng)的工具名稱和必要的參數(shù)信息。更重要的是,系統(tǒng)學(xué)會了使用符號占位符來表示步驟間的依賴關(guān)系,比如"[步驟1中識別的人物]"或"[從步驟4檢索的結(jié)果]",確保推理的邏輯連續(xù)性得以保持。
這種規(guī)劃能力讓AI能夠在開始執(zhí)行任務(wù)之前就制定出完整的策略,就像軍事行動前的詳細作戰(zhàn)計劃。每個計劃步驟都明確指出了需要使用的工具、預(yù)期的輸入和輸出,以及與其他步驟的依賴關(guān)系。這種結(jié)構(gòu)化的規(guī)劃不僅提高了執(zhí)行效率,還增強了整個推理過程的可解釋性。
六、訓(xùn)練策略的精妙設(shè)計
整個系統(tǒng)的訓(xùn)練過程體現(xiàn)了研究團隊的巧妙設(shè)計思路。他們采用了混合模式訓(xùn)練,將不同類型的數(shù)據(jù)混合在一起進行監(jiān)督微調(diào)。這就像是為一個多才多藝的學(xué)徒安排全面的學(xué)習(xí)課程,既有專業(yè)技能訓(xùn)練,也有綜合能力培養(yǎng)。
訓(xùn)練數(shù)據(jù)不僅包括前面提到的專門任務(wù)數(shù)據(jù),還融入了大量通用的視覺問答數(shù)據(jù),主要涵蓋屬性識別、空間關(guān)系理解等基礎(chǔ)能力。研究團隊使用不同的系統(tǒng)提示詞來區(qū)分各種任務(wù)類型,讓模型學(xué)會在不同情境下采用相應(yīng)的推理模式。
在訓(xùn)練過程中,研究團隊觀察到了有趣的相互促進效應(yīng)。訓(xùn)練規(guī)劃模型提高了系統(tǒng)在搜索任務(wù)上的表現(xiàn),而通用的視覺問答數(shù)據(jù)則增強了模型在圖像思維過程中判斷基本屬性和關(guān)系的準(zhǔn)確性,從而帶來了感知基準(zhǔn)測試的持續(xù)改進。這種協(xié)同效應(yīng)證明了不同能力之間的有機結(jié)合確實能夠產(chǎn)生1+1>2的效果。
為了確保訓(xùn)練質(zhì)量,研究團隊還實施了嚴格的數(shù)據(jù)清理策略。他們移除了那些涉及沙盒執(zhí)行錯誤和需要重新裁剪的圖像思維數(shù)據(jù)點,因為這些低效數(shù)據(jù)會讓模型學(xué)習(xí)錯誤修復(fù)模式,導(dǎo)致顯著的性能下降。這種選擇性移除策略確保了模型學(xué)到的都是高效、正確的推理模式。
七、令人矚目的實驗成果
Skywork-R1V4在各種測試中展現(xiàn)出了令人印象深刻的性能表現(xiàn)。在感知任務(wù)方面,它在多個基準(zhǔn)測試中創(chuàng)下了新紀錄,特別是在需要精細視覺理解的任務(wù)上表現(xiàn)突出。在HRBench-4K精細感知任務(wù)中獲得91.8分,在V*屬性識別任務(wù)中達到90.4分,在MME-Real-CN感知任務(wù)中取得76.3分的成績。
更令人驚嘆的是它在深度多模態(tài)搜索任務(wù)上的表現(xiàn)。在MMSearch基準(zhǔn)測試中獲得66.1分,比基線模型提高了47.4分;在FVQA任務(wù)中達到67.2分,提升了13.9分;在BrowseComp-VL任務(wù)中取得38.4分,提升了8.4分。這些顯著的提升證明了系統(tǒng)不僅增強了底層感知能力,還實現(xiàn)了穩(wěn)健、可解釋且工具增強的復(fù)雜開放世界場景推理。
令人驚訝的是,盡管Skywork-R1V4使用的是與基線相同的30B規(guī)模架構(gòu),但它在所有11個報告指標(biāo)上都超越了Google的Gemini 2.5 Flash,并在其中5個指標(biāo)上超越了Gemini 2.5 Pro。這一成果充分證明了基于智能體、圖像基礎(chǔ)推理框架的有效性。
實際應(yīng)用展示更是生動地證明了系統(tǒng)的多樣化能力。在規(guī)劃模式下,AI能夠為復(fù)雜的開放式問題生成結(jié)構(gòu)化、基于工具的執(zhí)行計劃。在深度研究模式下,它展示了通過迭代圖像操作進行精細視覺推理、通過多模態(tài)搜索進行準(zhǔn)確地理定位,以及最值得注意的交替思維能力——在圖像操作和搜索工具之間無縫切換以解決復(fù)雜的視覺查詢。這些例子collectively展示了Skywork-R1V4在自適應(yīng)、基礎(chǔ)性和工具增強的多模態(tài)推理方面的能力。
八、效率優(yōu)勢顯著
基于3B激活參數(shù)的架構(gòu)設(shè)計,Skywork-R1V4在推理速度方面具有顯著優(yōu)勢。在單輪評估的MMSearch和FVQA測試基準(zhǔn)中,該模型比Gemini-2.5-Flash快約4倍,比Gemini-2.5-Pro快15倍。在更復(fù)雜的BrowseComp-VL基準(zhǔn)測試中,速度提升約為5倍。
在啟用代碼和搜索工具的多輪端到端設(shè)置中,系統(tǒng)的平均推理時間和每秒令牌數(shù)仍然比其他模型高出約2倍。值得注意的是,這個計算包含了工具執(zhí)行時間,如果排除工具執(zhí)行時間,實際的模型側(cè)每秒令牌數(shù)會更高。這種效率優(yōu)勢不僅來自于模型參數(shù)規(guī)模的優(yōu)勢,還體現(xiàn)了整體架構(gòu)設(shè)計的優(yōu)越性。
說到底,Skywork-R1V4的成功證明了一個重要觀點:在AI發(fā)展的道路上,巧妙的設(shè)計思路和高質(zhì)量的訓(xùn)練數(shù)據(jù)往往比單純的規(guī)模擴張更加重要。這個系統(tǒng)就像一個經(jīng)過精心訓(xùn)練的多面手,雖然規(guī)模不是最大的,但技能最全面、配合最默契。
研究團隊的工作為未來的AI發(fā)展指明了幾個有前景的方向。首先,系統(tǒng)框架可以融入更豐富的視覺和網(wǎng)絡(luò)交互工具,如分割、深度估計或結(jié)構(gòu)化DOM導(dǎo)航,以支持更復(fù)雜的任務(wù)。其次,規(guī)劃能力可以通過記憶機制或預(yù)測模塊來增強,改善長期任務(wù)的連貫性。雖然這項工作完全依賴監(jiān)督微調(diào),但未來的研究可以探索混合范式,將監(jiān)督模仿學(xué)習(xí)的穩(wěn)定性與多模態(tài)智能體強化學(xué)習(xí)的適應(yīng)性相結(jié)合,這可能會進一步提高AI在開放世界環(huán)境中的穩(wěn)健性和自主性。
最重要的是,Skywork-R1V4建立了一個強大的基礎(chǔ),證明了高保真監(jiān)督,即使在適度規(guī)模下,也能解鎖引人注目的智能體行為。這為那些希望開發(fā)實用AI助手的研究者和開發(fā)者們提供了一條更加可行和高效的路徑。未來,我們可能會看到更多基于類似原理的AI系統(tǒng)出現(xiàn)在我們的日常生活中,成為真正有用的數(shù)字助手,幫助我們更好地理解和探索這個復(fù)雜的世界。
Q&A
Q1:Skywork-R1V4相比其他AI助手有什么獨特優(yōu)勢?
A:Skywork-R1V4最大的優(yōu)勢是能夠在一個任務(wù)中同時使用圖像分析和網(wǎng)絡(luò)搜索能力,就像一個既會現(xiàn)場勘察又會查閱資料的偵探。它可以主動操作圖像進行精細分析,還能上網(wǎng)搜索驗證信息,最重要的是能靈活地在這兩種能力間切換。而且它完全通過監(jiān)督學(xué)習(xí)訓(xùn)練,不需要復(fù)雜的強化學(xué)習(xí),效率更高成本更低。
Q2:Skywork-R1V4是如何進行圖像思維的?
A:圖像思維就是讓AI能夠主動操作圖像,而不是被動觀看。當(dāng)AI看到一張復(fù)雜圖片時,它會像偵探一樣制定分析計劃,通過編寫Python代碼來裁剪、縮放、調(diào)整對比度等操作,逐步挖掘圖像細節(jié)。比如尋找圖中的小狗時,它會先鎖定公園等可能出現(xiàn)狗的區(qū)域,然后精確裁剪這些區(qū)域進行詳細檢查,直到找到目標(biāo)。
Q3:普通用戶什么時候能使用Skywork-R1V4?
A:目前Skywork-R1V4還處于研究階段,普通用戶暫時無法直接使用。不過昆侖萬維作為這項技術(shù)的開發(fā)者,很可能會在未來將這些能力集成到他們的產(chǎn)品中。考慮到這個系統(tǒng)的效率優(yōu)勢和實用性,相信不久的將來我們就能在各種智能助手產(chǎn)品中體驗到類似的多模態(tài)推理能力。





京公網(wǎng)安備 11011402013531號