![]()
考慮這樣一個場景:你需要為公司寫一份詳細的市場分析報告,或者你是一名研究生,導師要求你完成一篇關于最新科技趨勢的綜述。過去,這種深度研究工作需要你花費數小時甚至數天時間,在互聯網的信息海洋中搜索資料,然后將這些零散的信息整理成有條理的報告。如今,隨著AI助手的興起,我們開始期待這些智能工具能夠幫助我們完成這類復雜的研究任務。
然而,現實往往令人失望。當你真正讓AI助手去完成一個需要深度研究的任務時,你可能會發現它們的表現遠不如預期。有時候它們提供的信息過于淺顯,有時候引用的資料來源不明,有時候甚至會編造一些看似真實但實際上并不存在的事實。這就像是讓一個號稱精通廚藝的廚師為你準備一桌宴席,結果發現他只會做簡單的煎蛋,而且還經常把調料搞錯。
正是基于這樣的現實困境,來自威斯康星大學麥迪遜分校、斯坦福大學和Salesforce AI研究院的一個國際研究團隊,在2025年10月發表了一項突破性研究成果。這項研究發表在計算機科學領域的重要學術會議上,題為《LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild》。研究團隊由威斯康星大學的王佳宇、斯坦福大學的Riya Dulepet,以及Salesforce AI研究院的明一飛、陳青林等多位研究者組成,他們花費了超過1500小時的人工工作,構建了一個前所未有的AI深度研究能力評測體系。
這項研究的核心貢獻可以比作為AI助手建立了一個"駕照考試場"。就像我們評估一個人是否具備駕駛資格需要讓他在真實道路環境中接受各種復雜情況的考驗一樣,研究團隊創建了一個名為LiveResearchBench的測試平臺,專門用來評估AI系統在真實世界中進行深度研究的能力。這個平臺包含了100個精心設計的研究任務,涵蓋了從商業分析到學術綜述,從政策評估到技術調研等各個領域。
更重要的是,研究團隊還開發了一套名為Deepeval的全面評估體系,這就像是為研究報告質量制定了一套詳細的評分標準。這套評估體系不僅要檢查AI生成的報告是否包含了所需的信息,還要評估報告的邏輯性、引用的準確性、內容的深度以及表達的清晰度等多個維度。通過這種多維度的評估,研究者們能夠準確判斷出AI助手在哪些方面表現出色,在哪些方面還存在明顯不足。
研究團隊對17個當前最先進的AI系統進行了全面測試,結果發現了一個令人深思的現象:大多數AI系統更像是"信息收集員"而非"深度研究者"。它們擅長搜集和整理信息,但在提供有洞察力的分析和深入見解方面還有很大不足。這個發現對于我們理解當前AI技術的真實能力水平,以及如何更好地利用這些工具來輔助我們的工作,都具有重要的指導意義。
**一、深度研究的四個金標準:讓AI接受真正的挑戰**
當我們談論AI的深度研究能力時,就像評判一位優秀記者的專業水準一樣,需要建立明確的標準。研究團隊通過大量的用戶調研,發現了評估AI深度研究能力的四個關鍵維度,這些維度就像是衡量一篇優質新聞報道的基本要求。
第一個標準是"用戶中心化",這意味著研究任務必須反映真實用戶的實際需求。就像一位優秀的記者需要了解讀者真正關心什么問題一樣,AI系統也需要能夠理解和滿足不同用戶群體的具體需求。舉個例子,一位企業高管需要的市場分析報告和一名學術研究者需要的文獻綜述在深度、廣度和表達方式上都有很大差異。研究團隊通過對企業專業人士、學術研究者和普通用戶的深入調研,確保他們設計的測試任務能夠真實反映這些不同群體的實際需求。
第二個標準是"動態性",這要求研究任務必須涉及最新的、實時更新的信息。傳統的AI評測往往使用靜態的、歷史的數據,這就像讓記者只報道去年的新聞一樣毫無意義。真正的深度研究往往需要獲取最新的信息,比如當前的市場趨勢、最新的政策變化或者最近發布的研究成果。研究團隊特意在許多任務中加入了"截至當前日期"這樣的時間限定,確保AI系統必須能夠獲取和處理最新的信息。
第三個標準是"明確性",這確保研究任務的描述清晰明確,不會產生歧義。這就像給攝影師一個拍攝任務時,你需要明確告訴他要拍什么主題、什么風格、面向什么受眾一樣。模糊的任務描述會導致不同的AI系統產生完全不同的結果,使得評估變得毫無意義。因此,研究團隊花費大量時間精心設計每一個任務的描述,確保不同的系統對同一個任務有一致的理解。
第四個標準是"多層面和搜索密集型",這要求研究任務必須足夠復雜,需要從多個角度進行深入分析。真正的深度研究不是簡單的信息搜集,而是需要綜合多方面的信息,進行深入的分析和推理。就像一位優秀的調查記者不僅要收集事實,還要分析這些事實之間的關聯,揭示事件的深層原因和廣泛影響一樣。
為了驗證這些標準的有效性,研究團隊將他們的LiveResearchBench與現有的其他評測基準進行了詳細對比。結果發現,許多現有的評測要么過于簡單,只涉及基礎的信息檢索;要么過于狹窄,只關注特定的專業領域;要么描述模糊,容易產生不同的理解。相比之下,LiveResearchBench中的任務都經過了嚴格的設計和驗證,確保每個任務都能真實反映用戶的實際需求,同時具有足夠的挑戰性來區分不同AI系統的能力水平。
這種嚴格的標準設計使得LiveResearchBench成為了第一個真正能夠評估AI深度研究能力的綜合性平臺。就像汽車安全評測機構建立嚴格的碰撞測試標準一樣,這四個標準為AI深度研究能力的評估提供了科學、客觀、可重復的基礎。
**二、精心構建的測試題庫:100道涵蓋現實生活的研究挑戰**
LiveResearchBench的核心是100個精心設計的研究任務,這些任務就像是一個涵蓋現實生活各個方面的綜合考試題庫。研究團隊沒有隨意編造這些任務,而是通過一個嚴謹的六階段流程來確保每個任務都具有實際價值和評估意義。
這個過程首先從真實用戶需求調研開始,就像產品經理在開發新產品前需要深入了解用戶需求一樣。研究團隊對來自企業、學術界和日常生活各個領域的用戶進行了深入訪談,詢問他們在實際工作和生活中最希望AI助手幫助解決什么樣的研究問題。通過這種方式,研究團隊收集了大量真實的研究需求,為后續的任務設計奠定了堅實基礎。
接下來,研究團隊聘請了具有豐富經驗的領域專家來起草初始的研究問題。這些專家來自不同的行業和學科背景,他們的任務是將用戶的實際需求轉化為具體的、可操作的研究任務。這個過程就像建筑師根據客戶需求設計建筑圖紙一樣,需要既滿足實際需求,又考慮技術實現的可行性。
為了確保任務描述的明確性,研究團隊采用了一個創新的方法:讓兩個頂級的AI深度研究系統(OpenAI o3 Deep Research和Gemini Deep Research)對每個初始任務提出可能的澄清問題。這種做法類似于讓經驗豐富的律師審查合同條款,找出可能產生歧義的表述。通過這種方式,研究團隊能夠發現任務描述中可能存在的模糊之處,并進行相應的改進。
然后,人類專家會綜合這些澄清建議,結合自己的專業知識,對每個任務進行精細化修改,確保任務描述既清晰明確,又具有適當的挑戰性。這個過程就像編輯在出版前對稿件進行最終潤色一樣,需要反復推敲每一個細節。
在任務確定后,研究團隊使用GPT-5來生成每個任務對應的評估清單。這些清單就像是給每道考試題配備的標準答案要點,用來檢驗AI生成的報告是否涵蓋了任務要求的所有關鍵內容。例如,對于一個要求分析美國企業AI服務市場的任務,評估清單會包括"是否提供了2024和2025年的市場規模數據"、"是否專注于美國市場"等具體檢查項目。
最后,研究團隊建立了一個嚴格的五階段驗證流程來確保任務和評估清單的質量。這個驗證過程涉及多組獨立的專家評估員,他們會對每個任務和評估項目進行獨立評判,然后通過多輪質量控制來確保最終結果的可靠性。這種做法類似于學術論文的同行評議過程,通過多重驗證來確保結果的客觀性和準確性。
經過這樣嚴格的設計和驗證流程,最終的100個任務涵蓋了七個主要領域:科學技術、經濟商業、健康福祉、法律治理、社會文化、教育知識和媒體娛樂。這些任務又被細分為十個具體類別,包括市場分析、文獻綜述、排行榜制作、技術支持、政策法規分析、競爭分析、利弊比較、廣泛信息搜索、主題探索和決策支持。
這種全面的覆蓋確保了LiveResearchBench能夠全面評估AI系統在不同類型研究任務上的表現。就像一個全面的體檢項目需要檢查身體的各個系統一樣,這100個任務能夠從多個角度檢驗AI系統的深度研究能力,揭示其優勢和不足。
**三、Deepeval評估體系:六個維度全面檢驗AI研究質量**
評估AI生成的研究報告質量是一個極其復雜的挑戰,這就像評判一道復雜菜肴的優劣一樣,需要從多個維度進行綜合考量。研究團隊開發的Deepeval評估體系就像是一套專業的美食評判標準,從六個不同的維度來全面評估AI研究報告的質量。
第一個維度是"表達與組織",這檢查報告的整體結構和表達質量。就像評判一篇文章的寫作水平一樣,這個維度會檢查報告是否有清晰的結構、是否存在語法錯誤、引用格式是否一致、表格圖表是否完整等基本要素。研究團隊設計了10個具體的檢查項目,包括報告是否有邏輯清晰的組織結構、是否存在拼寫和語法錯誤、每個文內引用是否都有對應的參考文獻條目等。這些檢查項目就像是文章編輯的質量檢查清單,確保報告在基本的表達質量上達到專業標準。
第二個維度是"事實與邏輯一致性",這檢查報告內容是否存在內在矛盾。隨著報告篇幅的增長,AI系統越來越容易在不同部分提供相互矛盾的信息,這就像一個人在長時間談話中忘記了自己之前說過的話一樣。這個維度的評估會仔細檢查報告中是否存在事實矛盾、邏輯不一致或者數字沖突等問題。評估采用累積扣分的方式,每發現一個實質性的不一致就扣除相應分數,這樣能夠準確反映報告的整體可靠性。
第三個維度是"覆蓋面與全面性",這檢查報告是否充分回應了研究任務的所有要求。這個維度利用了前面提到的任務清單,逐項檢查AI生成的報告是否涵蓋了任務要求的所有關鍵內容。這就像檢查一個項目是否完成了所有預定目標一樣,需要逐一核對每個具體要求。評估會給每個清單項目打分,然后計算總體的完成率,這樣能夠客觀地衡量報告的全面性。
第四個維度是"分析深度",這是最具挑戰性的評估維度,檢查報告是否提供了有深度的分析而非僅僅是信息收集。這個維度會從五個方面來評估分析質量:推理的細致程度、多層次洞察的提供、批判性評價的體現、證據的分析性使用以及洞察的密度。評估采用成對比較的方式,將被測試的報告與基準報告進行對比,判斷哪個在分析深度上更勝一籌。這種方法類似于文學作品的比較評析,能夠更準確地判斷不同報告之間的質量差異。
第五個維度是"引用關聯性",這檢查報告中的事實性陳述是否都配備了適當的引用。在學術寫作和專業報告中,每個重要的事實性陳述都應該有可驗證的來源支持。這個維度會檢查是否存在缺乏引用支持的重要陳述,或者引用與陳述內容明顯不匹配的情況。例如,如果報告聲稱"中型運載火箭在2024年占據了56.63%的市場份額",那么這個具體的數據就必須有相應的來源支持。
第六個維度是"引用準確性",這檢查所提供的引用來源是否真實存在且確實支持相關陳述。這是最技術性的評估維度,需要實際訪問每個引用的網頁鏈接,驗證鏈接是否有效、內容是否與任務相關、是否確實支持相關的陳述。為了提高評估效率,這個維度采用了創新的"樹狀評估"方法,將同一來源的多個引用歸為一組進行批量驗證,這樣既能保證評估的全面性,又能控制評估成本。
為了確保評估結果的可靠性,研究團隊沒有依賴單一的AI評判系統,而是采用了多模型集成的方法。通過大量的人工對比驗證,研究團隊發現Gemini 2.5 Pro和GPT-5這兩個模型在評估準確性上表現最佳,因此最終采用了這兩個模型組成的評判團隊,取其評估結果的平均值作為最終評分。
這種多維度、多方法的評估體系確保了Deepeval能夠全面、客觀地評估AI研究報告的質量。就像一個全面的健康檢查需要多項指標來綜合判斷身體狀況一樣,這六個維度的綜合評估能夠準確反映AI系統在深度研究任務上的真實表現水平。
**四、17個AI系統的實戰表現:令人意外的發現**
當研究團隊將17個當前最先進的AI系統放到LiveResearchBench這個"考場"中時,結果既有預期中的表現,也有令人意外的發現。這些AI系統可以分為三大類:單智能體網絡搜索系統、單智能體深度研究系統和多智能體研究系統,就像是三種不同類型的研究助手。
單智能體網絡搜索系統就像是配備了搜索工具的單人研究員,包括GPT-5、GPT-4.1、Gemini 2.5 Pro、Claude 4 Sonnet等我們熟悉的AI助手。這些系統的特點是能夠直接訪問網絡進行信息搜索,然后基于搜索結果生成研究報告。
單智能體深度研究系統則像是經過特殊訓練的專業研究員,包括OpenAI o3 Deep Research、Gemini Deep Research等,這些系統具有更強的推理能力和更長的思考時間,能夠進行更深入的分析。
多智能體研究系統就像是一個研究團隊,其中不同的AI智能體承擔不同的角色,比如有專門負責搜索的、有專門負責分析的、有專門負責寫作的,然后通過協作來完成整個研究任務。這類系統包括Manus、Grok-4 Heavy Deep Research、Deerflow+和Open Deep Research等。
測試結果揭示了一個有趣的現象:雖然很多人期待更復雜的系統會有更好的表現,但實際情況要復雜得多。在綜合評分上,表現最好的是Open Deep Research(73.7分),其次是GPT-5(73.1分)和Deerflow+(72.9分)。這個結果表明,系統的復雜程度與其實際表現并不總是成正比的。
更深入的分析顯示,不同類型的系統在不同維度上各有優勢。單智能體網絡搜索系統在事實與邏輯一致性方面表現最好,平均得分69.7分。這是因為這些系統使用單一的推理線程,能夠更好地保持內容的一致性,避免了多個智能體之間可能出現的信息沖突。其中,Gemini 2.5 Pro在這個維度上表現最為突出,得分達到76.5分。
多智能體系統在引用關聯性方面表現最佳,平均得分61.9分。這是因為這些系統通常有專門的智能體負責處理引用和文獻管理,能夠更好地確保事實性陳述與引用來源之間的對應關系。Deerflow+在這個維度上得分最高,達到81.4分。
然而,最令人意外的發現是,幾乎所有系統在分析深度這個維度上都表現不佳。研究團隊發現,大多數AI系統更像是"深度搜索者"而非"深度研究者"。它們擅長收集和整理信息,但在提供深入洞察、批判性分析和原創觀點方面還有很大不足。即使是那些號稱具有強大推理能力的系統,在面對需要綜合多方信息進行深入分析的任務時,也往往只是將收集到的信息進行簡單的重新組織,而缺乏真正的分析性思考。
研究團隊還發現了一些令人擔憂的問題。在引用準確性方面,即使是表現最好的系統也存在明顯問題。研究團隊對表現最好的三個系統(GPT-5、Grok-4 Deep Research和Open Deep Research)在最具挑戰性的任務上進行了詳細的引用驗證,發現所有系統都會產生大量的引用錯誤。在信息搜索密集型任務中,大多數錯誤來自于"不支持的聲明",也就是說,AI系統提供的鏈接雖然真實存在,但其內容并不能支持相關的陳述。在市場分析任務中,這個問題更加嚴重,Open Deep Research平均每份報告會產生91.9個不支持的聲明錯誤。
另一個普遍存在的問題是表達和格式方面的錯誤。研究團隊發現,對人類來說非常簡單的任務,比如確保文內引用與參考文獻列表一致、保持引用格式統一、避免語法錯誤等,對當前的AI系統來說卻是一個挑戰。許多系統會產生文內引用與參考文獻不匹配、引用編號錯亂、表格格式不完整等問題,這些看似細節的問題實際上會嚴重影響報告的專業性和可信度。
這些發現對我們理解當前AI技術的真實能力水平具有重要意義。雖然這些AI系統在信息收集和基礎整理方面已經相當強大,但在需要深度思考、批判性分析和準確引用的高質量研究工作方面,它們仍然有很長的路要走。這提醒我們,在使用AI助手進行研究工作時,需要保持適當的期待,并做好人工驗證和補充的準備。
**五、深度發現:AI研究能力的真實畫像**
通過對17個AI系統的全面測試,研究團隊揭示了當前AI深度研究能力的真實狀況,這些發現就像是給AI技術的現狀拍了一張高清的"體檢照片"。
首先,一個令人意外的發現是,報告長度與質量之間并沒有直接的正相關關系。許多人可能認為,能夠生成更長報告的AI系統必然具有更強的研究能力,但事實并非如此。研究數據顯示,一些能夠生成超長報告的系統(如OpenAI o3 Deep Research和Gemini Deep Research)在實際質量評估中的表現并不總是最好的。這就像評判一篇文章的質量不能僅僅看字數一樣,內容的深度和準確性遠比篇幅更重要。
更有趣的是,報告長度的差異往往來自于系統的技術實現細節而非內容本質。比如,一些系統在引用中使用非常長的重定向URL,或者在參考文獻列表中重復列出相同的鏈接,這些技術性的處理方式會顯著增加報告的字符數,但對報告的實際價值并沒有貢獻。
第二個重要發現是,AI系統最容易犯的錯誤往往是那些對人類來說最簡單的任務。研究團隊發現,幾乎所有系統都會在引用管理和格式處理方面出現問題。比如,文內引用與參考文獻列表不匹配、引用編號順序混亂、引用格式不一致、表格格式不完整等。這些問題就像是一個學術能力很強的研究生在論文格式方面犯的低級錯誤一樣,雖然不影響內容的學術價值,但會嚴重影響整體的專業印象。
這個現象反映了當前AI系統的一個根本性特點:它們在高級認知任務(如信息理解和內容生成)方面表現出色,但在需要嚴格遵循規則和保持一致性的機械性任務方面反而容易出錯。這就像是一個很有創意的藝術家,能夠創作出富有想象力的作品,但經常忘記在作品上簽名或者把顏料蓋子忘記蓋上。
第三個發現涉及不同系統架構的特點。單智能體系統在保持內容一致性方面具有天然優勢,因為它們使用統一的推理線程,不存在不同組件之間的信息傳遞和協調問題。這就像是一個人獨自完成一項工作時,不會出現團隊協作中可能產生的溝通誤解和協調問題。
相比之下,多智能體系統雖然在某些專門任務(如引用管理)上表現更好,但也面臨著系統復雜性帶來的挑戰。當系統需要在多個智能體之間傳遞和整合信息時,就可能出現信息丟失、重復或沖突的問題。這就像是一個大型項目團隊,雖然每個成員都很專業,但團隊協作的效果很大程度上取決于溝通和協調機制的有效性。
第四個關鍵發現是關于分析深度的。研究結果顯示,當前幾乎所有的AI系統都更像是"高級信息收集和整理工具"而非"深度思考者"。它們能夠快速搜索大量信息,并將這些信息組織成看起來很專業的報告,但在提供原創洞察、進行批判性分析或者揭示事物之間深層聯系方面還有很大局限。
這種局限性在具體表現上非常明顯。比如,當要求分析某個市場趨勢時,AI系統能夠收集到相關的數據和專家觀點,也能夠將這些信息整理成條理清晰的報告,但它們很少能夠提出新的分析角度,或者發現數據背后的深層原因,或者預測這些趨勢可能帶來的長遠影響。這就像是一個很勤奮的實習生,能夠收集和整理大量資料,但還缺乏經驗豐富的分析師那種深度思考和獨到見解的能力。
第五個發現關于引用準確性的問題特別值得關注。研究團隊發現,即使是表現最好的AI系統也存在嚴重的引用問題。最常見的問題不是完全虛構的鏈接(雖然這種情況也存在),而是提供了真實存在的鏈接,但鏈接內容實際上并不支持相關的陳述。這種問題特別危險,因為它給人一種"有據可查"的假象,但實際上可能誤導讀者。
這就像是一個學生在寫論文時,為了顯得有學術依據,在每個觀點后面都加上了看似權威的引用,但實際上這些引用要么根本沒有仔細閱讀過,要么內容與觀點并不匹配。這種做法不僅沒有增加論文的可信度,反而可能讓讀者產生錯誤的理解。
最后一個重要發現是關于系統性能的權衡關系。研究數據顯示,在當前的技術水平下,很難有系統在所有維度上都表現出色。一個系統如果在信息覆蓋面上表現很好,可能在分析深度上就有所不足;一個系統如果在保持邏輯一致性方面很強,可能在創新性思考方面就比較弱。這種權衡關系反映了當前AI技術的內在限制,也為未來的技術發展指明了方向。
這些發現對于我們正確使用AI研究工具具有重要的指導意義。它們提醒我們,雖然AI系統已經能夠在很多方面輔助我們的研究工作,但我們仍然需要保持批判性思維,特別是在驗證信息準確性、進行深度分析和確保引用可靠性方面,人類的監督和驗證仍然是不可或缺的。
歸根結底,這項研究為我們揭示了AI深度研究能力的真實現狀:它們已經成為了強大的信息收集和初步整理工具,但距離真正的深度研究者還有相當的距離。這種認識有助于我們更合理地設定期望,更有效地利用這些工具,同時也為AI技術的進一步發展提供了明確的改進方向。對于普通用戶來說,了解這些局限性能夠幫助我們更智慧地使用AI助手,既充分發揮它們的優勢,又避免盲目依賴可能帶來的風險。
研究團隊的這項工作不僅為學術界提供了一個標準化的評估工具,也為產業界的AI系統改進指明了方向。更重要的是,它為我們普通用戶提供了一個理性認識AI能力邊界的窗口,讓我們能夠更好地在AI時代中導航前行。
Q&A
Q1:LiveResearchBench是什么?
A:LiveResearchBench是威斯康星大學團隊開發的AI深度研究能力評測平臺,包含100個精心設計的真實研究任務,用來測試AI系統在市場分析、文獻綜述、政策評估等復雜研究工作上的表現,就像是給AI助手設計的"駕照考試"。
Q2:為什么現在的AI助手在深度研究方面表現不好?
A:研究發現AI系統更像"信息收集員"而非"深度研究者",它們擅長搜索整理信息,但在提供有洞察力的分析、批判性思考和準確引用方面還有很大不足,經常出現引用錯誤、格式問題和分析深度不夠等問題。
Q3:Deepeval評估體系如何工作?
A:Deepeval從六個維度評估AI生成的研究報告:表達組織、事實邏輯一致性、覆蓋全面性、分析深度、引用關聯性和引用準確性。就像給研究報告做全面體檢,使用多種評估方法確保結果客觀準確。





京公網安備 11011402013531號