![]()
這項由ServiceNow公司的Nima Sheikholeslami領導的研究團隊完成的突破性工作,發表于2025年9月30日的arXiv預印本平臺(論文編號:arXiv:2510.00137v1)。感興趣的讀者可以通過該編號查詢完整論文。這項研究揭開了當前AI檢索系統的一個重大缺陷,并提出了一種全新的訓練方法,讓搜索引擎能夠給出更可靠、更一致的相關性評分。
在日常使用搜索引擎或問答系統時,你是否遇到過這樣的困擾:明明搜索的是同一個問題,但系統給出的答案質量卻忽高忽低,有時候不相關的內容反而排在前面?這個問題的根源其實隱藏在AI檢索系統的核心訓練機制中。目前主流的檢索系統就像一個只會相對比較的評委,它能判斷在同一個問題下哪個答案更好,但無法給出絕對的好壞評分。這就導致了一個尷尬的局面:對于不同問題的答案,系統無法進行跨問題的質量比較。
ServiceNow的研究團隊發現,這個問題源于目前廣泛使用的對比學習方法。這種方法就像讓學生只做選擇題,永遠不做絕對評分題。學生雖然能在給定選項中選出最好的答案,但無法給每個答案一個獨立的分數。更嚴重的是,研究團隊通過嚴格的數學證明發現,現有的訓練方法在提升檢索質量這個核心目標上存在根本性的盲點。
為了解決這個問題,研究團隊提出了一種名為Mann-Whitney損失函數的新訓練方法。這種方法的靈感來源于統計學中的Mann-Whitney U檢驗,它能讓AI系統學會給每個文檔一個絕對的相關性評分,而不僅僅是相對排序。通過這種方法訓練的檢索系統,就像培養了一個能給每道菜打絕對分數的美食評委,而不是只會說"這道菜比那道菜好"的相對評判者。
研究團隊在多個標準數據集上進行了詳盡的實驗驗證,包括自然語言推理、問答系統、閱讀理解等不同任務。實驗結果顯示,使用新方法訓練的檢索系統不僅在傳統的檢索指標上表現更優,在評分一致性方面更是有了顯著提升。特別是在需要設定相關性閾值的實際應用場景中,新方法展現出了明顯的優勢。
一、檢索系統的隱秘缺陷
在深入探討解決方案之前,我們先來理解當前檢索系統面臨的核心問題。現代的AI檢索系統,包括那些為搜索引擎、智能問答和文檔檢索提供支撐的系統,都依賴于一種叫做"雙編碼器"的架構。這種架構的工作原理就像一個智能的圖書管理員,它會把用戶的問題和候選文檔都轉換成數字化的"指紋",然后通過比較這些指紋的相似度來判斷文檔與問題的相關程度。
然而,這個看似完美的系統卻隱藏著一個致命缺陷。目前主流的訓練方法叫做"對比學習",它的工作方式就像訓練一個只會做選擇題的學生。給定一個問題和幾個候選答案,系統學會了如何選出最相關的那個,但它從來沒有學會如何給每個答案一個絕對的分數。
這種局限性在實際應用中會產生什么后果呢?研究團隊給出了一個生動的例子:當用戶問"為什么天空是藍色的?"時,一個相關度很高的答案可能只得到0.85分,而當另一個用戶問"為什么地球上有不同季節?"時,一個相關度較低的答案卻可能得到0.82分。這種分數的不一致性讓系統無法設定一個統一的相關性閾值來過濾低質量內容。
更深層的問題在于,現有的訓練方法對于分數的絕對值完全不敏感。研究團隊通過嚴格的數學證明揭示了一個驚人的事實:你可以任意調整某個查詢下所有文檔的分數,只要保持它們的相對順序不變,訓練損失就完全不會改變。這就像一個老師在批改試卷時,只關心學生的排名順序,而完全忽視他們的實際分數。學生A得90分,學生B得80分,和學生A得60分,學生B得50分,在這個老師眼里是完全一樣的。
這種盲點的存在意味著,傳統的對比學習方法在優化過程中根本無法感知到全局的分數分布質量。它可能會產生這樣的結果:對于簡單問題的不太相關答案分數很高,而對于復雜問題的高度相關答案分數很低。這種現象在實際的檢索增強生成系統中尤其危險,因為這類系統通常需要設定一個固定的閾值來決定是否采用檢索到的信息。
研究團隊還發現,這種缺陷不僅影響系統的校準性,也會間接影響檢索性能。當系統無法學會正確的全局分數分布時,它對不同查詢和文檔組合的泛化能力也會受到限制。這就解釋了為什么即使是表現優秀的檢索系統,在面對需要絕對評分的應用場景時往往表現不佳。
二、Mann-Whitney損失函數的創新突破
為了解決傳統對比學習的根本缺陷,ServiceNow的研究團隊提出了一種全新的訓練方法,他們稱之為Mann-Whitney損失函數。這個名字來源于統計學中著名的Mann-Whitney U檢驗,這是一種用來比較兩組數據分布差異的統計方法。
Mann-Whitney損失函數的核心思想可以用一個簡單的比喻來理解。傳統的對比學習就像訓練一個只會在一桌菜中選出最好吃的那道菜的食客,而Mann-Whitney損失函數則是在訓練一個能對任意兩道菜進行味道比較的美食評委。這個評委不僅要能判斷A菜比B菜好吃,還要能準確估計A菜好吃多少,以及這種判斷的置信度有多高。
從技術角度來看,Mann-Whitney損失函數的工作原理是這樣的:對于訓練數據中的每一對正例文檔(相關文檔)和負例文檔(不相關文檔),無論它們是否來自同一個查詢,系統都要學會給出正確的相對評分。具體來說,系統需要確保每個正例文檔的分數都高于每個負例文檔的分數,而且這種比較是全局性的,不受查詢條件的限制。
這種方法的數學表達非常優雅。對于每一對正例和負例文檔,系統計算它們分數差值的sigmoid函數,然后通過最小化二元交叉熵損失來優化。這個過程確保了正例文檔的分數總是傾向于比負例文檔更高,而且差距越大,系統的信心越足。
研究團隊為這種新方法提供了嚴格的理論保證。他們證明了Mann-Whitney損失函數直接上界于"曲線下面積"(AUC)的補集,這意味著最小化這個損失函數就等價于最大化AUC指標。這個理論結果非常重要,因為AUC是評估檢索系統性能的黃金標準之一,它衡量的是系統將相關文檔排在不相關文檔之前的能力。
更深層的理論意義在于,Mann-Whitney損失函數建立了訓練目標和評估指標之間的直接聯系。傳統的對比學習方法在訓練過程中優化的目標與最終的評估指標之間存在不可忽視的差距,而新方法則實現了完美的對齊。這種對齊不僅在理論上更加優雅,在實踐中也帶來了顯著的性能提升。
從計算復雜度的角度來看,Mann-Whitney損失函數確實需要進行更多的成對比較。在傳統方法中,每個查詢只需要與同一批次內的負例進行比較,而新方法需要與所有負例進行比較。但是,這種額外的計算開銷主要體現在損失計算階段,對于嵌入向量的計算和相似度計算的成本并沒有增加。研究團隊通過巧妙的實現技巧,使得這種額外開銷在實際應用中是完全可以接受的。
三、實驗設計與性能驗證
研究團隊設計了一套全面的實驗來驗證Mann-Whitney損失函數的效果。他們選擇了三種不同規模的預訓練模型作為基礎架構:MiniLM(小型模型)、XLM-RoBERTa-base(基礎模型)和XLM-RoBERTa-Large(大型模型)。這種多規模的實驗設計確保了結論的普適性,無論是資源受限的應用場景還是追求極致性能的場景,都能從中受益。
實驗涵蓋了四個具有代表性的數據集,每個數據集都代表了不同類型的語言理解任務。自然語言推理數據集測試系統理解句子間邏輯關系的能力,自然問題數據集模擬真實的開放域問答場景,SQuAD數據集專注于閱讀理解任務,而MS MARCO數據集則是搜索引擎檢索的經典基準。通過在這些不同任務上的測試,研究團隊確保了新方法的通用性和魯棒性。
在評估指標的選擇上,研究團隊采用了業界認可的標準指標。AUC指標衡量系統區分相關和不相關文檔的能力,MRR指標關注最相關文檔的排序位置,nDCG指標則綜合考慮了排序質量和相關性程度。這種多維度的評估確保了結論的全面性和可信度。
實驗結果令人印象深刻。在同領域性能測試中,使用Mann-Whitney損失函數訓練的模型在AUC指標上普遍獲得了顯著提升。以XLM-RoBERTa-Large模型為例,在自然語言推理任務上,AUC從0.73提升到了0.88,這是一個相當可觀的改進。更重要的是,這種提升在所有測試數據集上都保持了一致性,說明新方法的優勢是普遍存在的,而不是針對特定任務的偶然改進。
在傳統檢索指標方面,新方法也展現出了競爭優勢。雖然MRR和nDCG的提升相對溫和,但考慮到這些指標已經在傳統方法上得到了充分優化,任何進一步的改進都是難能可貴的。特別值得注意的是,隨著模型規模的增大,新方法的優勢變得更加明顯,這表明更大的模型具有更強的能力來學習這種更復雜的全局優化目標。
四、跨領域泛化能力的深度驗證
為了驗證Mann-Whitney損失函數的泛化能力,研究團隊設計了一個更加嚴格的測試場景:他們在自然語言推理數據集上訓練模型,然后在完全不同的BEIR基準測試套件上評估性能。BEIR是檢索領域的綜合性基準,包含了十多個不同領域的數據集,從生物醫學文獻檢索到法律文檔分析,從科學論文搜索到金融問答,覆蓋了幾乎所有主要的應用場景。
這種跨領域測試的設計理念類似于醫學研究中的臨床試驗。在實驗室條件下表現良好的藥物,必須在真實世界的復雜環境中證明其有效性。同樣,在單一數據集上表現優秀的機器學習方法,也需要在多樣化的應用場景中驗證其魯棒性。
跨領域實驗的結果進一步證實了新方法的優勢。在BEIR基準的14個子任務中,使用Mann-Whitney損失函數訓練的模型在絕大多數任務上都取得了更好的性能。特別令人驚喜的是,這種改進在不同類型的任務上都保持了一致性。無論是事實性問答、文檔分類,還是論證挖掘任務,新方法都展現出了穩定的性能增益。
更深入的分析顯示,新方法在需要精確相關性判斷的任務上表現尤為突出。例如,在科學文獻檢索任務SciFact上,AUC指標從0.66提升到了0.77,這種程度的改進在實際應用中具有重要意義。科學研究者在查閱文獻時,需要系統能夠準確識別真正相關的研究,而不是被表面相似但內容無關的文檔所誤導。
跨領域實驗還揭示了一個有趣的現象:模型規模越大,新方法的跨領域泛化優勢越明顯。這個發現具有重要的實踐指導意義,它表明在有限的計算資源下,選擇更好的訓練方法可能比簡單地增大模型規模更加有效。對于很多實際應用場景,使用Mann-Whitney損失函數訓練的中等規模模型,其性能可能超過使用傳統方法訓練的大型模型。
五、算法收斂性與計算效率分析
研究團隊還深入分析了新方法的訓練動態和計算特性。他們發現,Mann-Whitney損失函數的收斂速度確實比傳統的對比學習方法稍慢。具體來說,新方法通常需要額外20-30%的訓練步數才能達到最佳性能。這個現象并不意外,因為新方法需要學習更復雜的全局分數分布,這自然需要更多的訓練時間。
然而,這種額外的計算成本是完全值得的。研究團隊認為,較慢的收斂速度實際上反映了新方法正在解決一個更困難、更有價值的優化問題。傳統方法只需要學會局部的相對排序,而新方法要建立全局一致的評分體系,這種任務的復雜性自然更高。
從計算資源的角度來看,Mann-Whitney損失函數的主要額外開銷來自于更多的成對比較計算。在傳統方法中,每個查詢只需要與同批次內的負例進行比較,而新方法需要與所有負例進行比較。研究團隊通過精心設計的實現方案,將這種額外開銷控制在了可接受的范圍內。他們發現,通過合理的批處理策略和內存管理,新方法的實際訓練時間僅比傳統方法增加了約15-25%。
更重要的是,這種額外的訓練成本是一次性的。一旦模型訓練完成,在推理階段的計算成本與傳統方法完全相同。對于需要長期部署的生產系統來說,訓練階段的適度額外投入換取推理階段的持續性能改進,這種投資回報是非常劃算的。
研究團隊還分析了不同超參數設置對新方法性能的影響。他們發現,Mann-Whitney損失函數對學習率、批次大小和負例數量的敏感性都比較低,這意味著新方法具有更好的魯棒性和更容易的調參過程。這種特性在實際應用中非常有價值,因為它降低了技術門檻,讓更多的開發者能夠成功應用這種先進的訓練方法。
六、理論創新與實踐意義
Mann-Whitney損失函數的提出不僅僅是一個技術改進,它代表了檢索系統訓練范式的根本性轉變。傳統的對比學習方法雖然在很多任務上表現優秀,但它存在的理論缺陷一直被學術界所忽視。這項研究首次系統地揭示了這些缺陷,并提供了嚴格的數學證明。
從理論角度來看,這項工作的最大貢獻在于建立了訓練目標與評估指標之間的直接數學聯系。在機器學習領域,這種聯系被稱為"算法一致性",它是衡量一個學習算法質量的重要理論標準。Mann-Whitney損失函數實現了與AUC指標的完美一致性,這在理論上保證了訓練過程的正確方向。
這種理論創新的實踐意義是深遠的。在實際的檢索系統部署中,開發者經常需要面對一個困難的問題:如何設定一個合理的相關性閾值來過濾低質量結果?傳統的系統由于缺乏全局校準,這個閾值往往需要通過大量的試驗和錯誤來確定,而且在不同類型的查詢下可能需要不同的閾值。
使用Mann-Whitney損失函數訓練的系統則提供了更好的解決方案。由于分數的全局一致性,開發者可以設定一個統一的閾值,這個閾值在不同類型的查詢下都能保持穩定的過濾效果。這種特性對于需要自動化運行的大規模系統來說具有巨大的價值。
另一個重要的實踐意義體現在檢索增強生成系統的應用上。這類系統需要根據檢索到的文檔來生成答案,文檔質量的不一致直接影響生成答案的質量。更好的文檔評分校準意味著系統能夠更準確地識別高質量的參考文檔,從而生成更可靠的答案。
七、技術實現與部署考慮
對于希望在實際項目中應用Mann-Whitney損失函數的開發者來說,技術實現相對直接。研究團隊提供的方法不需要修改現有的模型架構,只需要替換損失函數的計算方式。這種設計使得新方法能夠無縫集成到現有的訓練流程中。
在具體實現時,開發者需要注意幾個關鍵點。首先是負例采樣策略的調整。由于新方法需要進行更多的成對比較,合理的負例采樣變得更加重要。研究團隊建議使用困難負例挖掘技術,這樣可以在保持訓練效果的同時減少計算開銷。
其次是批處理策略的優化。傳統的對比學習可以使用相對較小的批次,而Mann-Whitney損失函數從更大的批次中獲益更多。這是因為更大的批次提供了更多的成對比較機會,有助于學習更準確的全局分數分布。但是,批次大小的增加也會帶來內存需求的增長,開發者需要在性能和資源消耗之間找到平衡點。
模型部署階段的考慮主要集中在分數校準的驗證上。研究團隊建議在部署前進行全面的校準測試,確保模型在實際數據上的分數分布符合預期。這種測試可以通過在驗證集上繪制ROC曲線和分析分數分布來完成。
對于已經在生產環境中運行傳統檢索系統的團隊,遷移到新方法需要謹慎的規劃。研究團隊建議采用漸進式的遷移策略:首先在小規模的測試環境中驗證新方法的效果,然后逐步擴大應用范圍。這種策略可以最大程度地降低遷移風險,同時確保系統性能的持續改進。
結論
ServiceNow團隊的這項研究為檢索系統的訓練方法帶來了重要突破。通過深入分析傳統對比學習方法的理論缺陷,他們提出了Mann-Whitney損失函數這一創新解決方案。這種新方法不僅在理論上更加嚴謹,在實踐中也展現出了顯著的性能優勢。
從技術角度來看,Mann-Whitney損失函數解決了檢索系統長期存在的分數校準問題。通過學習全局一致的相關性評分,新方法讓檢索系統具備了更強的實用性和可靠性。這種改進對于需要設定固定閾值的應用場景特別有價值,比如自動問答系統、文檔推薦引擎和內容過濾系統。
從更廣闊的視角來看,這項研究展示了理論分析在機器學習研究中的重要價值。通過嚴格的數學分析揭示傳統方法的盲點,研究團隊不僅提出了更好的解決方案,也為后續的相關研究指明了方向。這種將理論洞察轉化為實踐改進的研究范式值得更多研究者借鑒。
實驗結果顯示,新方法在多個維度上都優于傳統方法,特別是在跨領域泛化能力方面表現突出。這種優勢對于需要處理多樣化查詢的實際應用系統來說具有重要意義。隨著AI技術在各個領域的深入應用,對檢索系統泛化能力的要求越來越高,Mann-Whitney損失函數為滿足這種需求提供了有效的技術路徑。
雖然新方法在訓練效率方面存在一定的額外開銷,但這種投入換來的性能改進是值得的。特別是在大規模部署的生產系統中,訓練階段的適度額外投入能夠帶來長期的性能收益。
展望未來,這項研究為檢索系統的發展開辟了新的方向。研究團隊提到的一些未來工作方向,包括在大規模多語言環境下的應用、與其他優化技術的結合等,都具有重要的研究價值。同時,新方法在其他需要全局校準的機器學習任務中的應用潛力也值得進一步探索。
總而言之,這項研究不僅解決了一個重要的技術問題,也為整個檢索系統領域的發展做出了有意義的貢獻。對于希望改進檢索系統性能的開發者和研究者來說,Mann-Whitney損失函數提供了一個簡單而有效的工具。隨著更多團隊開始采用這種新方法,我們有理由期待檢索系統在準確性和可靠性方面的進一步提升。
Q&A
Q1:Mann-Whitney損失函數與傳統對比學習方法的主要區別是什么?
A:傳統對比學習就像只會做選擇題的學生,只能在同一個問題下比較答案好壞,無法給出絕對評分。而Mann-Whitney損失函數像訓練能給任意答案打絕對分數的評委,可以進行跨問題的質量比較,解決了分數不一致的問題。
Q2:使用Mann-Whitney損失函數訓練會增加多少計算成本?
A:新方法主要增加了成對比較的計算量,實際訓練時間比傳統方法增加約15-25%,需要額外20-30%的訓練步數。但模型訓練完成后,推理階段的計算成本與傳統方法完全相同,是一次性投入長期受益。
Q3:這種新方法適合什么樣的應用場景?
A:特別適合需要設定固定相關性閾值的場景,如自動問答系統、文檔推薦引擎、內容過濾系統等。對于檢索增強生成系統也很有價值,能幫助更準確地識別高質量參考文檔,從而生成更可靠的答案。





京公網安備 11011402013531號