![]()
這項突破性研究由馬里蘭大學(xué)計算機科學(xué)系的熊天翼、葛一、李明等十多位研究人員團隊完成,于2025年11月發(fā)表在arXiv預(yù)印本平臺上,論文編號為arXiv:2511.21662v1。該研究首次系統(tǒng)性地揭示了一個令人意外的現(xiàn)象:即使是最先進的AI評判系統(tǒng),在需要同時考慮多個評價標準時也會出現(xiàn)嚴重的"偏科"問題。
想象一下,如果你要評判一場烹飪比賽,需要同時考慮菜品的味道、外觀、創(chuàng)意和營養(yǎng)價值四個方面。對于人類評委來說,雖然有一定難度,但完全可以做到公正評價。然而,這項研究發(fā)現(xiàn),當(dāng)前最頂尖的AI評判系統(tǒng)在面臨類似的多標準評價任務(wù)時,就像一個只會品味道而忽視外觀的偏心評委。
研究團隊發(fā)現(xiàn)了一個令整個AI領(lǐng)域震驚的現(xiàn)象:當(dāng)AI需要同時評估多個不同的標準時,它們往往會表現(xiàn)得就像戴著有色眼鏡的評委,無法真正做到公平公正。這個問題的嚴重性遠超人們想象,即使是最強大的商業(yè)AI模型,在多標準評判任務(wù)中的準確率竟然只有32%到53%,這意味著大部分時候它們的判斷都是有偏差的。
這項研究的重要性在于,它首次系統(tǒng)性地揭示了AI評判系統(tǒng)的一個根本性缺陷。在日常生活中,我們越來越依賴AI來做各種評判,從產(chǎn)品推薦到內(nèi)容審核,從學(xué)術(shù)論文評審到招聘篩選。如果AI無法公正地處理多重標準,那么這些應(yīng)用的公平性和準確性都會受到質(zhì)疑。
一、AI評判官的多重標準難題
傳統(tǒng)的AI評判系統(tǒng)就像一個只會按單一標準打分的機器人。比如,當(dāng)你讓它評判一篇文章時,它可能只看語法是否正確,或者只看內(nèi)容是否豐富,但很難同時兼顧語法、內(nèi)容、創(chuàng)意、邏輯等多個維度。
馬里蘭大學(xué)的研究團隊意識到這個問題的嚴重性,決定深入調(diào)查AI在多標準評判中的表現(xiàn)。他們構(gòu)建了一個名為"Multi-Crit"的全新評測基準,這就像為AI評判官設(shè)計了一場綜合能力大考。
這個測試系統(tǒng)涵蓋了兩大類評判任務(wù)。第一類是開放式內(nèi)容生成評判,就像評判學(xué)生的作文,需要同時考慮完整性、視覺描述能力、事實準確性、創(chuàng)意表達和邏輯清晰度五個方面。第二類是推理驗證評判,類似于評判數(shù)學(xué)解題過程,需要同時關(guān)注視覺理解、邏輯一致性、事實準確性、深度思考和表達簡潔性五個維度。
研究團隊花費了289小時的人工標注時間,招募了9名計算機科學(xué)博士生作為標注員,對425個多模態(tài)問題和1425個標準級別的人類判斷進行了精確標注。這個過程就像請來一群最專業(yè)的評委,為每道菜的每個評價維度都打出精確分數(shù),形成了一個金標準數(shù)據(jù)集。
更有趣的是,研究團隊發(fā)現(xiàn)了大量的標準沖突現(xiàn)象。在開放式評判任務(wù)中,68.9%的樣本存在標準沖突,在推理驗證任務(wù)中這個比例更是高達86.5%。這意味著一個回答可能在創(chuàng)意方面表現(xiàn)出色,但在事實準確性上有所不足,或者一個解題過程邏輯嚴密但表達過于冗長。
二、頂級AI模型的意外表現(xiàn)
研究團隊對25個不同的大型多模態(tài)模型進行了全面測試,其中包括GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Pro等商業(yè)界的明星產(chǎn)品,以及InternVL、Qwen等開源領(lǐng)域的佼佼者。測試結(jié)果令人震驚,即使是最強大的模型也顯露出明顯的局限性。
在開放式評判任務(wù)中,表現(xiàn)最好的o4-mini模型的多標準準確率只有32.78%,而Claude-3.7-Sonnet緊隨其后達到31.77%。這個數(shù)字聽起來可能不夠直觀,但換個角度理解:這意味著在需要同時考慮五個評價標準的任務(wù)中,AI評判官有超過三分之二的時候無法給出完全正確的判斷。
在推理驗證任務(wù)中,情況稍有好轉(zhuǎn)但依然不容樂觀。o4-mini在這類任務(wù)中達到了53.17%的準確率,GPT-5緊隨其后為45.24%。雖然比開放式任務(wù)表現(xiàn)更好,但仍然意味著近一半的判斷存在偏差。
更令人擔(dān)憂的是開源模型的表現(xiàn)。最強的開源模型InternVL3.5-38B在開放式任務(wù)中只達到30.43%的準確率,在推理驗證任務(wù)中也僅為37.30%。這種差距不僅體現(xiàn)在整體準確率上,更重要的是在處理標準沖突能力上。商業(yè)模型的沖突匹配率普遍在40%以上,而開源模型大多在30%以下,說明它們更難識別和處理復(fù)雜的多標準權(quán)衡問題。
研究還發(fā)現(xiàn)了一個有趣的現(xiàn)象:沒有任何一個模型能在所有標準上都表現(xiàn)優(yōu)異。o4-mini在邏輯性和效率方面表現(xiàn)出色,但在探索性思考上不如o3模型。GPT-4o在表達創(chuàng)意方面領(lǐng)先,但在完整性和事實準確性上落后。這就像每個評委都有自己的專長和盲點,無法做到真正的全面均衡。
三、專門訓(xùn)練的AI評判官也不例外
更令人意外的發(fā)現(xiàn)是,即使是專門為評判任務(wù)而訓(xùn)練的AI模型,在多標準評判中的表現(xiàn)也并不盡如人意。研究團隊測試了包括LLaVA-Critic、R1-Reward等專門的評判模型,結(jié)果發(fā)現(xiàn)這些"專業(yè)評委"的表現(xiàn)竟然不如一些通用模型。
以基于Qwen2.5-VL訓(xùn)練的幾個評判模型為例,R1-Reward是唯一在基礎(chǔ)準確率上超過原始模型的,但這種提升主要體現(xiàn)在視覺理解能力上,而在處理多標準權(quán)衡和沖突識別方面,改善效果微乎其微。
這個現(xiàn)象背后的原因值得深思。目前的評判模型訓(xùn)練主要基于整體偏好信號,就像訓(xùn)練一個評委時只告訴它"這個更好"或"那個更差",而沒有教會它如何在不同維度之間進行細致權(quán)衡。這種訓(xùn)練方式雖然能提升某些特定能力,比如視覺理解,但無法培養(yǎng)出真正的多維度分析能力。
研究團隊還發(fā)現(xiàn),針對推理任務(wù)進行的強化學(xué)習(xí)訓(xùn)練雖然能提升模型在數(shù)學(xué)和圖表分析上的表現(xiàn),但卻削弱了它們在多標準評判中的權(quán)衡識別能力。這就像一個評委過于專注于技術(shù)細節(jié),反而失去了整體把握能力。
四、思考過程對評判質(zhì)量的影響
研究中一個特別有趣的發(fā)現(xiàn)是關(guān)于AI"思考"過程對評判質(zhì)量的影響。團隊測試了支持思考模式和非思考模式的模型,比如InternVL3.5和Qwen3-VL系列,結(jié)果顯示思考過程對模型表現(xiàn)的影響呈現(xiàn)出明顯的規(guī)律性。
對于較小的8B參數(shù)模型,啟用思考模式帶來了顯著提升。比如Qwen3-VL-8B在啟用思考模式后,多標準準確率從18.39%躍升至24.75%,提升幅度達到6.36個百分點。這就像給一個經(jīng)驗不足的評委更多時間仔細考慮,確實能提高判斷質(zhì)量。
然而,對于更大的30B參數(shù)模型,思考模式的效果就不那么明顯了。InternVL3.5-38B在啟用思考模式后,開放式任務(wù)的表現(xiàn)幾乎沒有變化,甚至在某些指標上略有下降。這表明大模型本身已經(jīng)具備了相當(dāng)?shù)?內(nèi)在思考"能力,額外的思考步驟可能會引入噪聲而非改善。
另一個重要發(fā)現(xiàn)是,思考模式對推理驗證任務(wù)的幫助普遍大于開放式任務(wù)。這符合直覺,因為推理任務(wù)有明確的邏輯鏈條,給予更多思考時間確實有助于梳理復(fù)雜的推理過程。而開放式創(chuàng)意任務(wù)可能更依賴于模型的直覺和經(jīng)驗積累。
五、測試時擴展的有限效果
研究團隊還探索了一種被稱為"測試時擴展"的技術(shù),簡單來說就是讓AI模型對同一個問題進行多次判斷,然后通過多數(shù)投票來確定最終結(jié)果。這就像請多個評委獨立打分后取平均值,理論上應(yīng)該能提高判斷的可靠性。
實驗結(jié)果顯示,只有最強的o4-mini模型在這種方法下獲得了一致的提升,開放式任務(wù)準確率從32.78%提升到37.12%,推理驗證任務(wù)從53.17%提升到57.94%。其他模型的表現(xiàn)則不夠穩(wěn)定,有些甚至出現(xiàn)了下降。
這個結(jié)果揭示了一個重要問題:測試時擴展的效果很大程度上取決于模型本身的基礎(chǔ)能力。只有當(dāng)單次判斷的質(zhì)量足夠高時,多次判斷的聚合才有意義。對于基礎(chǔ)能力較弱的模型,多次錯誤判斷的疊加并不能產(chǎn)生正確的結(jié)果。
六、人類標準與AI能力的邊界探索
研究中最發(fā)人深省的部分是對AI評判能力上限的探索。團隊分析了各類模型在不同評判標準上的最佳表現(xiàn),并將其與人類標注員之間的一致性進行了對比。
結(jié)果顯示,商業(yè)模型的最佳表現(xiàn)與人類標注員的一致性水平呈現(xiàn)顯著的正相關(guān)關(guān)系,相關(guān)系數(shù)達到0.73。這意味著在人類評委都比較一致的評判維度上,AI也能表現(xiàn)得相對較好。而在人類評委都存在分歧的復(fù)雜判斷上,AI同樣會表現(xiàn)不佳。
相比之下,開源模型的表現(xiàn)與人類一致性的相關(guān)性較弱,只有0.36,且不具備統(tǒng)計顯著性。這表明開源模型還沒有內(nèi)化足夠的人類評判模式,它們的判斷更多地依賴于訓(xùn)練數(shù)據(jù)中的表面模式,而非深層的評判邏輯。
這個發(fā)現(xiàn)對AI發(fā)展有重要啟示:商業(yè)模型雖然已經(jīng)接近了在某些維度上復(fù)制人類判斷的能力,但要超越人類評判水平還有很長的路要走。而開源模型則需要更多高質(zhì)量的人類標注數(shù)據(jù)來改善其評判能力。
七、聯(lián)合評判與單獨評判的對比
研究的另一個重要發(fā)現(xiàn)涉及AI如何處理同時評判多個標準的任務(wù)。團隊設(shè)計了兩種評判方式:一種是讓AI對每個標準單獨進行評判,另一種是讓AI在一次對話中同時評判所有標準。
結(jié)果顯示,聯(lián)合評判的效果因模型而異。GPT-4o在聯(lián)合評判模式下表現(xiàn)明顯下降,多標準準確率從31.44%降至30.10%,更重要的是,它識別標準沖突的能力大幅下降,從66.02%降至38.83%。這表明同時處理多個標準增加了模型的認知負擔(dān),導(dǎo)致判斷質(zhì)量下降。
然而,GPT-5卻在聯(lián)合評判中表現(xiàn)更好,準確率從29.77%提升到34.78%。這種差異可能反映了不同模型在處理復(fù)雜任務(wù)時的架構(gòu)差異和訓(xùn)練策略差異。
最重要的發(fā)現(xiàn)是,幾乎所有模型在聯(lián)合評判模式下都更難識別標準間的沖突。這是因為在單次對話中生成多個判斷時,后面的判斷容易受到前面判斷的影響,導(dǎo)致判斷趨于一致而忽視了標準間的本質(zhì)差異。
八、專業(yè)化訓(xùn)練的意外局限
研究中一個令人意外的發(fā)現(xiàn)是,專門針對特定領(lǐng)域進行強化學(xué)習(xí)訓(xùn)練的模型,在多標準評判上的表現(xiàn)可能會退化。團隊測試了幾個專門為推理任務(wù)訓(xùn)練的模型,包括ThinkLite-VL、MM-Eureka和VLAA-Thinker。
這些模型在數(shù)學(xué)和圖表分析等專業(yè)任務(wù)上確實表現(xiàn)出色,但在多標準評判中的權(quán)衡能力卻有所下降。比如在識別不同評判標準間沖突的能力上,這些專業(yè)模型的表現(xiàn)甚至不如基礎(chǔ)模型。
這個現(xiàn)象背后的原因值得深思。專業(yè)化訓(xùn)練雖然能提升特定任務(wù)的表現(xiàn),但可能會使模型過度關(guān)注某些特定模式,從而削弱了其在復(fù)雜多維度分析上的靈活性。這就像一個專業(yè)的數(shù)學(xué)老師可能在評判學(xué)生作文時過分關(guān)注邏輯結(jié)構(gòu)而忽視文學(xué)性。
九、開源與商業(yè)模型的根本差異
通過大量實驗,研究團隊發(fā)現(xiàn)開源模型和商業(yè)模型在多標準評判能力上存在系統(tǒng)性差異。這種差異不僅體現(xiàn)在準確率上,更重要的是體現(xiàn)在處理復(fù)雜權(quán)衡的能力上。
商業(yè)模型,特別是GPT和Claude系列,在處理標準沖突時表現(xiàn)出更強的敏感性。它們能夠識別出當(dāng)一個回答在創(chuàng)意方面優(yōu)秀但在準確性方面不足時的矛盾,并做出相應(yīng)的權(quán)衡判斷。而開源模型往往傾向于給出一致的偏好,難以捕捉這種細微但重要的差異。
這種差異可能源于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。商業(yè)模型通常有機會接觸到更多高質(zhì)量的人類反饋數(shù)據(jù),這些數(shù)據(jù)包含了豐富的評判細節(jié)和權(quán)衡考慮。而開源模型的訓(xùn)練數(shù)據(jù)往往以相對簡單的偏好信號為主,缺乏細粒度的評判指導(dǎo)。
十、研究方法的創(chuàng)新與嚴謹性
這項研究在方法學(xué)上的創(chuàng)新同樣值得關(guān)注。研究團隊設(shè)計了三個全新的評價指標來量化AI的多標準評判能力。多元準確率測量AI是否能在所有標準上都做出正確判斷,權(quán)衡敏感度測量AI是否能識別標準間的沖突,沖突匹配率測量AI是否能正確解決標準沖突。
數(shù)據(jù)構(gòu)建過程也體現(xiàn)了極高的嚴謹性。研究團隊從8個不同來源收集了多樣化的問題,涵蓋了從創(chuàng)意寫作到數(shù)學(xué)推理的廣泛領(lǐng)域。他們使用11個不同的高性能模型生成回答,確保了回答質(zhì)量的多樣性和代表性。
特別值得稱道的是人類標注過程的設(shè)計。研究團隊首先建立了標準化的評判標準,然后通過種子樣本訓(xùn)練標注員,確保不同標注員對評判標準有一致理解。每個樣本都由三名獨立標注員評判,只有當(dāng)標注員意見一致或多數(shù)一致時才被采納。最終的標注員一致性達到了開放式任務(wù)0.718和推理任務(wù)0.805的高水平。
說到底,這項研究揭示了當(dāng)前AI評判系統(tǒng)的一個根本性局限:它們雖然在單一維度的判斷上可能表現(xiàn)出色,但在需要綜合權(quán)衡多個標準時往往力不從心。這就像一個只會按照單一菜譜做菜的廚師,雖然能把某道菜做得很好,但面對需要平衡口味、營養(yǎng)、外觀等多重要求的綜合挑戰(zhàn)時就顯得捉襟見肘了。
這個發(fā)現(xiàn)對AI技術(shù)的發(fā)展具有深遠意義。隨著AI越來越多地參與到需要綜合判斷的場景中,從內(nèi)容審核到產(chǎn)品評價,從學(xué)術(shù)同行評議到招聘篩選,我們迫切需要能夠進行多維度公正評判的AI系統(tǒng)。目前的AI評判官更像是戴著有色眼鏡的偏心評委,而我們需要的是能夠全面公正評判的專業(yè)評委。
研究團隊的這項工作不僅指出了問題,更重要的是為解決問題指明了方向。未來的AI評判系統(tǒng)需要在訓(xùn)練過程中融入更多的多標準權(quán)衡數(shù)據(jù),學(xué)會在不同評判維度間進行細致平衡。同時,我們也需要認識到,真正的多標準評判能力可能需要比當(dāng)前模型更加復(fù)雜的架構(gòu)設(shè)計和訓(xùn)練策略。
對于普通用戶來說,這項研究提醒我們在使用AI評判系統(tǒng)時要保持審慎態(tài)度,特別是在需要綜合考慮多個因素的復(fù)雜決策中。雖然AI在某些專業(yè)領(lǐng)域已經(jīng)展現(xiàn)出超越人類的能力,但在需要平衡多重考量的綜合判斷上,人類的智慧仍然不可替代。
Q&A
Q1:Multi-Crit評測基準是什么?
A:Multi-Crit是馬里蘭大學(xué)開發(fā)的首個專門測試AI多標準評判能力的評測系統(tǒng)。它包含425個多模態(tài)問題和1425個標準級別的人類判斷,覆蓋開放式內(nèi)容生成和推理驗證兩大類任務(wù),每類任務(wù)都有五個不同的評判標準,用來檢驗AI是否能像人類一樣同時考慮多個評價維度。
Q2:為什么頂級AI模型在多標準評判中表現(xiàn)不好?
A:研究發(fā)現(xiàn)即使是最強的o4-mini模型,多標準準確率也只有32%-53%。這是因為當(dāng)前AI模型在訓(xùn)練時主要接受單一偏好信號,缺乏處理標準沖突和多維度權(quán)衡的能力。它們就像只會按單一標準打分的機器,面對需要綜合權(quán)衡的復(fù)雜判斷時就會出現(xiàn)偏差。
Q3:這項研究對普通人有什么影響?
A:這項研究提醒我們,在使用AI進行產(chǎn)品推薦、內(nèi)容審核、學(xué)術(shù)評價等需要綜合判斷的場景時要保持謹慎。當(dāng)前的AI評判系統(tǒng)更像戴著有色眼鏡的偏心評委,無法做到真正公平的多維度評價,因此在重要決策中仍然需要人類的參與和監(jiān)督。





京公網(wǎng)安備 11011402013531號