![]()
這項由延世大學的金鉉瑞、李相巖、徐光旭和李東河團隊完成的研究發表于2025年9月,論文編號為arXiv:2509.21106v1,有興趣深入了解的讀者可以通過這個編號查詢完整論文。
想象一下,兩個人同時問AI助手"電動汽車和混合動力汽車有什么區別",一個是環保主義者,另一個是汽車性能愛好者。雖然問的是同一個問題,但他們真正想了解的內容其實完全不同。環保主義者可能更關心環境影響,而性能愛好者則更在意動力表現。可現在的AI助手往往給出千篇一律的標準答案,就像一個不了解你的陌生人在機械地回答問題。
這就是延世大學研究團隊想要解決的核心問題:如何讓AI助手像一個了解你很久的老朋友一樣,能夠根據你的背景、興趣和偏好來定制回答。他們開發了一個名為BESPOKE的全新評估基準,這個名字本身就很有意思,BESPOKE在英文中意味著"量身定制",正如高級裁縫為每位客戶量身訂做西裝一樣。
傳統的搜索增強型大語言模型雖然能夠通過檢索相關信息來生成回答,大大減輕了用戶篩選信息的負擔,但它們仍然無法真正理解不同用戶背后的真實需求。就像一個優秀的醫生不僅要知道病癥,還要了解患者的生活習慣、工作環境和個人偏好一樣,一個真正智能的AI助手也需要理解用戶的個人背景和偏好。
為了創建這個評估基準,研究團隊采用了一種前所未有的方法:他們請30位來自不同行業背景的志愿者在三周時間里正常使用谷歌搜索和Gemini聊天功能,就像平常生活一樣。這些志愿者涵蓋了各行各業,從科研人員到媒體制作人,從學生到企業員工,確保了樣本的多樣性。這種做法就像是在觀察一群不同的人如何在日常生活中與信息互動,而不是在實驗室里創造人工場景。
在這三周里,研究團隊收集了2870個真實的用戶歷史會話,包括2153個搜索會話和717個聊天會話。每個用戶平均貢獻了95.67個會話,這些數據就像是每個人的數字足跡,記錄著他們的興趣、偏好和思維方式。更重要的是,研究團隊還讓這些志愿者針對自己的查詢撰寫詳細的信息需求說明,并對AI生成的回答進行評分和反饋。
一、個性化AI助手面臨的現實挑戰
當前的AI助手面臨著一個根本性問題:它們缺乏對用戶個性化需求的深度理解。就像一個剛入職的客服代表,雖然掌握了標準的回答模板,但無法根據不同客戶的具體情況調整服務方式。
考慮這樣一個場景:一位AI研究員和一位媒體制作人都問了同一個問題"社交媒體如何影響人們的生活"。AI研究員可能更關心算法機制、推薦系統的技術細節以及人工智能在其中的作用,而媒體制作人則更想了解社會文化現象、家庭關系變化以及新興職業的出現。然而,現有的AI系統往往會給出同樣的通用回答,無法捕捉到這種細微但重要的差別。
這種問題的根源在于現有系統缺乏對用戶歷史行為的深度分析能力。雖然ChatGPT和Gemini等系統已經開始嘗試利用用戶的聊天和搜索歷史來個性化回答,但缺乏系統性的評估方法來衡量這種個性化的效果如何,更不用說診斷具體哪些方面做得好,哪些方面還需要改進。
研究團隊發現,真正的個性化需要解決兩個層面的問題。第一個層面是內容理解,也就是AI助手需要準確識別用戶查詢背后的真實意圖。第二個層面是表達適配,也就是AI助手需要用符合用戶偏好的方式來組織和呈現信息。比如,有些人喜歡詳細的技術解釋,有些人偏愛簡潔的要點總結,有些人希望看到具體的數據支撐,而有些人更喜歡生動的案例說明。
二、BESPOKE評估基準的創新設計
BESPOKE評估基準的設計理念就像是為AI助手設計一套全面的個性化能力測試。與傳統的評估方法不同,BESPOKE不是在實驗室環境中創造人工測試場景,而是基于真實用戶的真實行為數據。
整個數據收集過程可以分為三個階段。第一階段是歷史收集階段,30位志愿者在三周時間里自然地使用谷歌搜索和Gemini進行日常的信息查詢和對話。這個過程就像是讓每個人正常生活,而研究團隊在后臺靜靜地記錄他們的數字行為模式。
第二階段是查詢標注階段,每位志愿者需要基于自己的歷史行為提出5個測試查詢,涵蓋分析、指導、推薦和解釋四種不同的任務類型。更關鍵的是,他們需要為每個查詢撰寫詳細的"黃金信息需求"說明,明確描述自己真正想要了解的內容、背景和期望的回答方式。這就像是給AI助手寫一份詳細的需求說明書。
第三階段是評估標注階段,志愿者需要對AI系統生成的回答進行詳細評估。這種評估不僅僅是簡單的好壞評分,而是從四個維度進行精細化評估:需求對齊度、內容深度、語調風格和解釋方式。每個維度都使用1到5分的評分標準,同時還要提供詳細的文字反饋說明。
這種設計的巧妙之處在于它創造了一個完整的個性化評估閉環。從用戶的真實歷史行為到具體的信息需求,再到對回答質量的詳細反饋,每一個環節都是基于真實的用戶體驗,而不是研究人員的主觀假設。
三、四個維度的個性化評估體系
BESPOKE的評估體系就像是一個全方位的體檢系統,從四個不同的角度來診斷AI助手的個性化能力。這四個維度分別對應了個性化服務的不同層面。
需求對齊度評估的是AI助手是否真正理解了用戶查詢背后的真實意圖。這就像是一個好的醫生不僅要聽懂患者說的癥狀,還要理解患者真正擔心的問題。比如,當用戶問"數字素養的重要性"時,一個教育工作者可能想要了解如何在課堂中培養學生的數字技能,而一個企業管理者可能更關心員工數字技能對企業競爭力的影響。
內容深度評估的是AI助手提供的信息是否符合用戶的知識水平和詳細程度需求。有些用戶喜歡深入的技術細節,有些用戶只需要概括性的要點,有些用戶希望看到具體的操作步驟,而有些用戶更喜歡理論框架的解釋。這就像是一個優秀的老師能夠根據學生的水平調整授課深度。
語調風格評估的是AI助手的表達方式是否符合用戶的偏好。有些用戶喜歡正式的學術語調,有些用戶偏愛輕松友好的對話風格,有些用戶希望簡潔直接,而有些用戶喜歡詳細的論述。這就像是一個好的銷售人員能夠根據客戶的性格調整溝通方式。
解釋方式評估的是AI助手組織和呈現信息的結構是否符合用戶的學習習慣。有些用戶喜歡條理清晰的要點列表,有些用戶偏愛故事化的敘述,有些用戶希望看到圖表和數據,而有些用戶更喜歡類比和例子。這就像是一個好的培訓師能夠用最適合學員的方式來傳授知識。
每個維度的評分不僅有數字分數,更重要的是有詳細的文字反饋。這些反饋就像是一面鏡子,能夠清晰地告訴AI系統哪些地方做得好,哪些地方需要改進,以及具體應該如何改進。
四、用戶歷史信息的智能利用
在BESPOKE的研究中,如何有效利用用戶的歷史信息成為了個性化效果的關鍵因素。研究團隊發現,不是所有的歷史信息都對個性化有幫助,關鍵在于如何智能地篩選和組織這些信息。
用戶歷史信息包括兩個主要部分:搜索歷史和聊天歷史。搜索歷史反映了用戶主動尋找信息的偏好和興趣方向,而聊天歷史則展現了用戶與AI系統交互的風格和深度偏好。就像是一個好朋友既知道你平時關注什么話題,也了解你喜歡什么樣的交流方式。
研究團隊測試了四種不同的歷史信息利用方式。第一種是完全不使用歷史信息,AI助手就像一個完全陌生的人回答問題。第二種是使用固定的用戶畫像,AI助手基于用戶的整體歷史行為形成一個靜態的用戶印象。第三種是查詢感知的動態畫像,AI助手會根據當前查詢的主題來篩選相關的歷史信息。第四種是進一步的智能篩選,不僅考慮主題相關性,還會評估歷史信息的質量和時效性。
實驗結果顯示,最有效的方式是查詢感知的智能篩選方法。這就像是一個經驗豐富的顧問,不僅知道客戶的整體偏好,還能根據當前的具體需求調取最相關的背景信息。比如,當用戶詢問工作相關的問題時,系統會優先考慮用戶的職業背景和專業興趣,而當用戶詢問生活相關的問題時,系統會更多地參考用戶的個人興趣和生活方式。
另一個重要發現是用戶上下文的表現形式也很關鍵。簡單地將歷史信息原樣提供給AI系統效果并不好,就像是給醫生一堆雜亂的病歷記錄。更好的方式是將歷史信息整理成結構化的用戶畫像,明確標示出用戶的興趣偏好、專業背景、表達習慣等關鍵特征。
五、實驗結果揭示的個性化現狀
研究團隊對六個主流的搜索增強型AI系統進行了全面測試,包括GPT-4o、o3、Gemini-2.5-Flash、Gemini-2.5-Pro、Perplexity-sonar和Perplexity-sonar-reasoning。測試結果就像是給這些AI助手進行了一次全面的個性化能力體檢。
最直觀的發現是,所有測試的AI系統在個性化方面都還有很大的提升空間,即使是表現最好的系統,平均得分也只有60多分(滿分100分)。這就像是一個學習成績中等的學生,有進步的基礎,但距離優秀還有不小的差距。
在四個評估維度中,語調風格的得分相對較高,大多數系統都能達到75-85分的水平。這說明當前的AI系統在保持中性、友好的交流語調方面做得比較好。然而,在需求對齊度和內容深度方面,所有系統的表現都比較一般,得分大多在45-60分之間。這意味著AI系統在理解用戶真實需求和提供恰當深度的內容方面還需要大幅改進。
更有趣的發現是關于用戶歷史信息的利用效果。當AI系統能夠訪問和利用用戶歷史信息時,個性化效果確實有顯著提升,但提升幅度因系統而異。具有推理能力的AI系統(如o3-search和Perplexity-sonar-reasoning)在利用歷史信息方面表現更好,這就像是聰明的學生能夠更好地從過往經驗中學習。
研究團隊還發現了一個重要的限制因素:網絡搜索質量對個性化效果有很大影響。當研究人員用高質量的預設信息替換AI系統自己搜索的結果時,個性化效果有了明顯提升。這說明當前AI系統的個性化能力不僅受限于對用戶需求的理解,也受限于獲取相關信息的能力。
六、診斷性反饋的價值與應用
BESPOKE最獨特的貢獻之一是提供了詳細的診斷性反饋,這就像是給AI系統配備了一位經驗豐富的私人教練,不僅能指出問題所在,還能提供具體的改進建議。
傳統的評估方法通常只給出簡單的好壞評分,就像考試只告訴你得了多少分,但不告訴你哪道題錯了,為什么錯了。而BESPOKE的診斷反饋系統會詳細說明AI回答的優點和不足,以及具體的改進方向。
比如,在一個關于平衡飲食的查詢中,當AI系統提供了過于寬泛的營養建議時,診斷反饋會指出:"回答過于關注宏量營養素而缺乏具體的食物建議,沒有考慮到用戶的健身背景,建議提供更多實際的食譜和時間安排建議。"這種反饋不僅指出了問題,還提供了改進的具體方向。
這種診斷性反饋在實際應用中顯示出了巨大價值。研究團隊通過對比分析發現,使用診斷反饋的評估系統與人類評估者的一致性達到了85%以上,遠高于不使用反饋的傳統評估方法。這說明詳細的反饋信息確實能夠幫助更準確地評估個性化質量。
更重要的是,這種反饋還可以用來訓練更好的個性化AI系統。就像是一個學生通過詳細的錯題分析來改進學習方法一樣,AI系統也可以通過這些反饋來調整自己的回答策略。研究團隊發現,那些能夠有效利用反饋信息的AI系統在后續的個性化任務中表現明顯更好。
七、歷史信息檢索的技術挑戰
在個性化AI助手的實現過程中,如何從大量的用戶歷史信息中快速準確地找到相關內容是一個重要的技術挑戰。這就像是在一個巨大的圖書館中,如何快速找到與當前問題最相關的書籍。
傳統的檢索方法主要依賴于表面的詞匯匹配,這種方法在處理個性化需求時顯得力不從心。比如,當用戶詢問"游戲推薦"時,系統可能無法理解用戶之前搜索"GeForce Now"、"云游戲"或"Mac游戲"等內容其實都與當前查詢相關,因為這些搜索反映了用戶的設備限制和游戲平臺偏好。
研究團隊提出了兩種改進的檢索策略。第一種是思維鏈擴展,讓AI系統先分析當前查詢可能涉及的各個方面,然后基于這種分析來搜索相關的歷史信息。第二種是偽歷史擴展,讓AI系統生成一些可能出現在用戶歷史中的相關查詢,然后用這些虛擬查詢來改進檢索效果。
實驗結果顯示,這兩種方法都能顯著提升歷史信息檢索的準確性。使用思維鏈擴展的方法,檢索準確性從8.2%提升到了38.1%,這是一個巨大的改進。這種提升就像是給圖書管理員配備了更好的索引系統,能夠更快地找到讀者需要的資料。
這個發現對于實際的AI系統開發有重要意義。它表明,僅僅收集用戶歷史信息是不夠的,如何智能地利用這些信息才是關鍵。未來的個性化AI系統需要更復雜的信息理解和關聯能力,才能真正發揮歷史信息的價值。
八、網絡搜索質量對個性化的影響
研究團隊的一個重要發現是網絡搜索質量對個性化效果的顯著影響。這個發現揭示了當前個性化AI系統面臨的一個根本性挑戰:即使完美理解了用戶需求,如果無法獲得高質量的相關信息,個性化效果仍然會大打折扣。
為了驗證這個假設,研究團隊設計了一個對比實驗。他們用預先準備的高質量信息替換了AI系統通過網絡搜索獲得的信息,然后比較個性化效果的變化。結果顯示,當使用高質量信息時,所有AI系統的個性化表現都有了顯著提升,特別是在需求對齊度和內容深度這兩個維度上。
這種提升的幅度因AI系統的類型而有所不同。具有強推理能力的系統(如o3-search)能夠更好地利用高質量信息來生成個性化回答,提升幅度更大。而一些較為基礎的系統雖然也有改進,但提升幅度相對有限。這就像是給不同水平的廚師提供同樣的優質食材,技藝高超的廚師能夠做出更美味的菜肴。
這個發現對AI系統的設計有重要啟示。它表明,個性化能力的提升不僅需要更好的用戶理解算法,也需要更強的信息獲取和處理能力。一個真正優秀的個性化AI助手需要在多個層面都表現出色:理解用戶需求、獲取相關信息、整合信息內容,以及用合適的方式表達。
同時,這個發現也解釋了為什么當前的個性化AI系統普遍表現不夠理想。在真實的網絡環境中,AI系統經常會遇到信息質量參差不齊、相關性不高或者過于分散的問題。如何在這種復雜環境中維持高質量的個性化服務,仍然是一個需要持續解決的技術挑戰。
研究團隊通過BESPOKE這個全新的評估基準,不僅揭示了當前個性化AI系統的現狀和問題,更重要的是為這個領域的發展提供了一個科學的評估工具和改進方向。就像醫學診斷工具的發展推動了醫療技術的進步一樣,BESPOKE也有望推動個性化AI技術的快速發展。
說到底,這項研究告訴我們,創造真正理解用戶的AI助手不僅僅是一個技術問題,更是一個需要深度理解人類行為和需求的復雜挑戰。雖然當前的技術還有很多不足,但通過像BESPOKE這樣系統性的研究和改進,我們正在向更智能、更貼心的AI助手目標穩步前進。未來的AI助手或許真的能夠像一個了解你很久的老朋友一樣,不僅知道你問的是什么,更明白你真正想要的是什么,并且用你最喜歡的方式來回答你的問題。
Q&A
Q1:BESPOKE評估基準與傳統AI評估方法有什么不同?
A:BESPOKE最大的不同在于它基于真實用戶的真實行為數據,而不是人工創造的測試場景。研究團隊讓30位志愿者在三周時間里正常使用搜索和聊天功能,收集了2870個真實會話,然后讓用戶自己評估AI回答的個性化程度。傳統方法通常只關注回答的準確性,而BESPOKE從需求對齊度、內容深度、語調風格和解釋方式四個維度全面評估個性化效果。
Q2:當前主流AI系統的個性化能力表現如何?
A:研究結果顯示所有測試的AI系統在個性化方面都還有很大提升空間,即使表現最好的系統平均得分也只有60多分。在語調風格方面表現相對較好,能達到75-85分,但在理解用戶真實需求和提供恰當深度內容方面普遍較弱,得分多在45-60分之間。這說明當前AI系統雖然能保持友好的交流方式,但在真正理解和滿足個性化需求方面仍需大幅改進。
Q3:如何提升AI助手的個性化效果?
A:研究發現最有效的方法是智能利用用戶歷史信息,特別是采用查詢感知的動態篩選方式,根據當前問題的主題來選擇最相關的歷史信息,而不是簡單使用所有歷史數據。同時,將歷史信息整理成結構化的用戶畫像比直接提供原始數據效果更好。此外,提升網絡搜索質量也很關鍵,因為即使完美理解用戶需求,如果獲取的信息質量不高,個性化效果仍會大打折扣。





京公網安備 11011402013531號