![]()
在人工智能快速發展的今天,我們經常聽說各種智能助手能夠在網上搜索信息、回答復雜問題。但你是否想過,這些AI助手是如何學會處理那些需要多步驟推理、涉及復雜信息搜索的問題的?最近,Salesforce AI Research團隊的研究人員Shrey Pandit、Xuan-Phi Nguyen、Yifei Ming等人發表了一項重要研究,提出了一種名為"ProgSearch"的創新數據合成方法。這項研究于2025年1月發表在arXiv預印本平臺上,論文編號為arXiv:2510.13913v1,為訓練更強大的網絡AI助手提供了新的解決方案。
當前的AI助手在處理簡單問題時表現不錯,但遇到需要長期規劃和多步驟推理的復雜任務時,往往力不從心。這就像讓一個只會做簡單算術的學生去解復雜的數學應用題一樣困難。現有的訓練數據生成方法雖然能創造大量問答對,但往往缺乏對難度的精確控制,就像隨意出題而不考慮學生的實際水平一樣。
為了解決這個問題,Salesforce團隊開發了一套"漸進式難度增強"的數據合成系統。這套系統的巧妙之處在于,它像一位經驗豐富的老師一樣,能夠根據學生(AI助手)的實際能力,逐步增加題目難度,直到學生開始犯錯為止。這樣生成的訓練數據恰好處在AI助手能力的邊界上,最能有效提升其性能。
研究團隊采用了兩種互補的方法來生成訓練數據。第一種被稱為"自上而下"的方法,就像構建一棵知識樹一樣。他們從一個核心實體開始,比如"斯坦福大學",然后逐步搜集相關事實,形成一個樹狀的知識結構。每當添加新的知識分支時,系統就會生成一個更復雜的問題。這個過程持續進行,直到生成的問題難到連基準AI助手都無法正確回答為止。
第二種"自下而上"的方法則采用了不同的策略。這種方法首先選擇一個相對罕見的實體作為答案,然后通過反復修改問題來增加難度。這就像設計一個猜謎游戲,答案是固定的,但線索變得越來越模糊和復雜,直到連最聰明的玩家也猜不出來。
整個數據合成過程中,基準AI助手扮演著多重角色。它既是學生(嘗試回答問題),又是老師(生成問題),還是研究員(搜集事實信息)和評判員(驗證答案的正確性)。這種多角色設計確保了生成數據的質量和一致性。
為了保證數據質量,研究團隊還設計了嚴格的過濾機制。每個生成的問答對都必須滿足多項標準:問題必須尋求單一、具體的答案;問題必須自然可讀,涵蓋多樣化的話題;問題應該具有足夠的復雜性,需要多跳推理或時間推理;答案不能從問題本身或常識中直接推導出來。
更重要的是,系統還會檢查是否存在其他合理的答案。當AI助手給出與標準答案不同的回答時,系統會分析這個替代答案是否同樣合理。如果是,那么這個問答對就會被丟棄,因為存在歧義的問題不適合用作訓練數據。
經過這套完整的合成和過濾流程,研究團隊最終獲得了約12000個高質量的問答對,經過進一步的軌跡采樣后,可用于訓練的數據減少到約6000個樣本。雖然數量上比其他數據集要少,但質量顯著更高。
為了驗證ProgSearch方法的有效性,研究團隊進行了嚴格的對比實驗。他們將自己的數據集與現有的兩個主要數據集Taskcraft和Asearcher進行了比較。實驗采用了相同的訓練方法——使用強大的GPT-OSS模型生成訓練軌跡,然后用這些軌跡訓練較小的模型如Qwen3-8B和Qwen2.5-7B。
實驗結果令人印象深刻。在多個網絡問答基準測試中,使用ProgSearch數據訓練的模型都表現出顯著的性能提升。具體來說,在frameS基準測試中,Qwen3-8B模型的準確率提升了16%,GAIA測試中提升了11%,在其他測試中也都有不同程度的改善。對于Qwen2.5-7B模型,改善幅度甚至更大,在某些測試中提升超過20%。
更有趣的是,通過分析訓練數據的特征,研究團隊發現ProgSearch生成的軌跡平均包含20個工具調用,是其他數據集的2到4倍。這意味著AI助手需要進行更多步驟的推理和搜索才能得到答案,體現了問題的復雜性。
研究團隊還發現,使用ProgSearch訓練的模型在工具使用上更加高效。雖然訓練數據中包含更多的工具調用,但訓練后的模型并沒有產生過度的工具調用行為。相反,它們學會了更有效地使用工具,在保持或略微增加工具使用量的同時,顯著提升了問題解決的準確性。
從數據分布來看,ProgSearch生成的問題覆蓋了更廣泛的主題領域。雖然歷史類問題稍多一些(可能因為此類問題相對容易回答),但整體分布比其他數據集更加均衡。這種多樣性有助于訓練出更全面的AI助手。
研究團隊展示的一些問題例子充分體現了ProgSearch的復雜性。比如有一個問題涉及從考古發現到地質特征,再到水利工程的多層次信息鏈接,最終詢問一個特定的保護區名稱。這樣的問題需要AI助手進行深入的網絡搜索和復雜的信息整合,遠遠超出了簡單問答的范疇。
為了確保實驗的公正性,研究團隊還實施了嚴格的防污染措施。由于評估用的基準測試題目在網上公開,AI助手可能會直接找到答案而不進行推理。因此,他們封鎖了某些可能包含答案的網站,確保AI助手必須通過真正的推理和搜索來解決問題。
這項研究的意義不僅在于提出了一個新的數據合成方法,更重要的是驗證了"質量勝過數量"的理念。在AI訓練數據普遍追求大規模的今天,ProgSearch證明了精心設計的小規模高質量數據可以比大規模低質量數據產生更好的效果。
ProgSearch方法的成功也為AI訓練領域提供了新的思路。傳統的數據合成方法往往忽視了目標模型的實際能力,生成的數據要么太簡單(對提升性能無益),要么太復雜(超出模型能力范圍)。而ProgSearch通過引入漸進式難度增強機制,能夠精確地找到模型能力的邊界,生成最有效的訓練數據。
研究團隊計劃在獲得機構審批后開源這個數據集,這將為整個AI研究社區帶來寶貴的資源。這種開放的態度體現了科學研究的合作精神,也將推動整個領域的發展。
從更廣泛的角度來看,這項研究反映了AI發展中的一個重要趨勢:從追求模型規模轉向優化訓練質量。隨著大型語言模型變得越來越強大,如何有效地訓練它們處理復雜任務成為了關鍵問題。ProgSearch提供的解決方案不僅適用于網絡問答任務,其核心思想也可能適用于其他需要復雜推理的AI應用。
當然,這項研究也有其局限性。ProgSearch方法依賴于一個強大的基準AI助手來生成和評估數據,這增加了實施的復雜性和成本。此外,雖然該方法在所測試的基準上表現出色,但其在其他類型任務上的表現還需要進一步驗證。
展望未來,ProgSearch的成功可能會啟發更多關于智能數據合成的研究。我們可能會看到更多結合了難度控制、質量保證和多樣性要求的數據生成方法。這些方法將幫助我們訓練出更強大、更可靠的AI助手,最終更好地服務于人類的各種需求。
說到底,ProgSearch的核心貢獻在于提供了一種系統性的方法來生成高質量的AI訓練數據。通過精確控制難度并確保數據質量,這種方法能夠更有效地提升AI助手處理復雜任務的能力。雖然數據量相對較小,但質量的提升帶來了顯著的性能改善,這為AI訓練領域提供了寶貴的啟示。對于那些希望深入了解這項研究的讀者,可以通過論文編號arXiv:2510.13913v1在相關學術平臺上查找完整論文。
Q&A
Q1:ProgSearch和傳統的AI訓練數據生成方法有什么不同?
A:ProgSearch最大的不同在于引入了"漸進式難度增強"機制。傳統方法往往隨意生成問答對,難度控制不精確。而ProgSearch會根據AI助手的實際能力逐步增加問題難度,直到AI開始犯錯為止,這樣生成的數據恰好處在AI能力邊界上,訓練效果最佳。
Q2:為什么ProgSearch數據量更小但效果更好?
A:這體現了"質量勝過數量"的原理。ProgSearch生成的每個問答對都經過嚴格的難度控制和質量過濾,確保問題具有適當的復雜性且答案唯一正確。相比之下,傳統方法生成的大量數據中可能包含很多對訓練無效的簡單問題或有歧義的問題。
Q3:普通人能否使用ProgSearch方法來改善AI助手的表現?
A:目前ProgSearch主要是研究級別的方法,需要專業的技術背景和計算資源來實施。不過,研究團隊計劃開源相關數據集,這將使更多研究者和開發者能夠利用這些高質量數據來訓練更好的AI助手,最終惠及普通用戶。





京公網安備 11011402013531號