![]()
這項由耶魯大學的趙一倫、謝路靜、張浩維等研究團隊領導的研究發表于2025年1月,研究成果已在arXiv平臺發布(arXiv:2501.12380v1),有興趣深入了解的讀者可以通過項目主頁mmvu-benchmark.github.io訪問完整資料。
想象一下,如果我們要測試一個學霸朋友是否真的掌握了各個學科的知識,我們會怎么做?可能會拿出化學實驗視頻問他反應過程,或者播放醫學手術視頻考察他的診斷能力。現在,耶魯大學的研究團隊就是用這種方式來"考試"人工智能的。
他們創建了一個叫MMVU的測試系統,就像是專門為AI設計的"高考"。這個測試不同于普通的選擇題,而是讓AI觀看各種專業領域的視頻,然后回答需要真正理解和推理的問題。這就好比讓一個醫學生觀看真實的手術視頻來判斷病毒類型,或者讓工程系學生通過觀看機械運轉視頻來識別算法原理。
這項研究之所以重要,是因為目前的AI雖然在文字和圖片理解方面表現不錯,但在觀看專業視頻并進行深度推理方面還存在很大挑戰。研究團隊想要搞清楚,當前最先進的AI模型在面對需要專業知識的視頻理解任務時,到底表現如何,距離人類專家還有多大差距。
研究團隊測試了32個目前最先進的AI模型,包括大家熟知的GPT-4o、Claude等,結果發現即使是表現最好的模型,在這個專業視頻理解測試中的表現也遠低于人類專家。這個發現對于AI的未來發展具有重要意義,特別是在醫療、工程、科學研究等需要高度專業知識的領域。
一、搭建AI的"專業技能考場"
MMVU就像是為AI量身定制的專業能力測試場。研究團隊精心設計了這個測試系統,包含了3000道由人類專家親自出題的問題,覆蓋了科學、醫療保健、人文社科和工程四大領域的27個具體學科。
這個測試的設計理念就像是真實的專業考試。當我們想測試一個化學專業學生的能力時,不會只問他化學方程式,而是會讓他觀看實際的化學反應過程,然后詢問反應機理、產物預測等需要深度理解的問題。MMVU正是采用了這種思路,讓AI觀看真實的專業領域視頻,然后回答需要專業知識和推理能力的問題。
研究團隊為了確保測試的質量,采用了嚴格的"課本指導"方式來出題。專家們首先從各學科的權威教科書中選取核心概念,然后尋找能夠展現這些概念的視頻,最后設計出相應的問題。這就好比老師在準備期末考試時,會根據教學大綱的重點內容來設計試題,確保考試能夠全面考查學生的掌握情況。
每道題目都配有詳細的解答過程和相關的專業知識背景。這不僅僅是為了給出標準答案,更重要的是為研究人員提供了分析AI模型錯誤原因的依據。當一個AI模型答錯題時,研究人員可以通過這些詳細信息分析到底是視覺理解出了問題,還是專業知識不足,或者是推理邏輯有誤。
測試中的視頻都來自于具有創意共用許可證的YouTube內容,這確保了使用的合法性。研究團隊還特意排除了那些包含大量文字或語音解釋的視頻,因為他們想測試的是AI對視覺信息的理解能力,而不是文字閱讀能力。這就好比在測試學生的觀察能力時,我們會選擇那些需要仔細觀看才能理解的實驗視頻,而不是那些有詳細旁白解釋的教學視頻。
二、人類專家的"手把手"出題過程
為了確保測試題目的質量和專業性,研究團隊采用了一種非常嚴格的專家參與模式。他們招募了67位來自各個專業領域的專家,包括研究生、博士生和資深研究者,這些人就像是各個學科的"金牌教師"。
整個出題過程就像是精心設計一道道"壓軸題"。專家們首先需要深入研讀各自領域的權威教科書,找出那些最適合通過視頻展現的核心概念。比如在化學領域,專家會選擇那些有明顯視覺變化的化學反應,如沉淀的形成、顏色的改變等;在工程領域,則會選擇機械運轉、算法演示等動態過程。
找到合適的概念后,專家們需要在YouTube上搜尋相關的教學視頻或演示視頻。這個過程就像是在浩如煙海的資料中尋找最佳的教學素材。不過,他們有一個重要的限制條件:只能使用具有創意共用許可證的視頻,這確保了研究的合法性和可復制性。
接下來是最關鍵的出題環節。專家們需要為每個視頻設計2-3道題目,這些題目不能是簡單的事實性問答,而必須要求觀看者具備相關的專業知識并進行深度思考。舉個例子,對于一個顯示化學反應的視頻,題目不會問"視頻中發生了什么",而是會問"假設有2.24升氣體在標準狀態下完全參與反應,會產生多少克沉淀物",這就需要觀察者不僅要看懂視頻中的反應過程,還要運用化學計算知識。
每道題目完成后,專家還需要提供詳細的解答過程和相關的專業知識背景。這就像是老師不僅要給出標準答案,還要解釋每一個推理步驟,甚至要列出相關的知識點和參考資料。這些信息對于后續分析AI模型的表現至關重要。
為了保證質量,每個題目在正式納入測試集之前,還要經過另一位專家的審核。審核者需要確認題目確實需要觀看視頻才能回答,不能僅憑文字或常識就能解決。如果發現問題,題目會被返回給原作者修改,甚至可能被完全排除。
三、給AI模型來一場"專業能力大比拼"
研究團隊將32個目前最先進的AI模型都拉來參加了這場"專業視頻理解大考"。這些模型來自17個不同的機構,包括大家熟知的OpenAI、Google、Anthropic等科技巨頭,也有一些開源模型。就像是邀請了各個學校的尖子生來參加競賽一樣。
這場測試采用了兩種不同的答題方式。第一種叫做"思維鏈推理",就是讓AI模型像人類學生一樣,先解釋自己的思考過程,然后給出最終答案。第二種是"直接回答",要求模型立即給出答案,不需要展示推理過程。這就好比考試時有些題目要求"寫出解題步驟",有些題目只需要填寫最終結果。
測試結果讓人既驚訝又深思。表現最好的是OpenAI的o1模型,準確率達到了80%,這已經接近人類專家在開卷考試中的表現了。不過,這個成績是在一個較小的樣本上測得的,因為o1模型的多模態版本當時還沒有完全開放。緊隨其后的是Google的Gemini 2.0 Flash Thinking模型,準確率約為69.3%。
大多數其他模型的表現都相對較差。比如廣受關注的GPT-4o,準確率只有66.7%,遠低于人類專家在開卷考試中86.8%的準確率。這個差距相當明顯,說明當前的AI模型在專業視頻理解方面還有很大的提升空間。
特別值得注意的是,那些能夠進行長時間"思考"的模型表現更好。o1和Gemini 2.0 Flash Thinking都屬于這種類型,它們在回答問題時會經歷更長時間的推理過程,就像人類專家會仔細思考后再回答問題一樣。這提示我們,讓AI有更多時間"思考"可能是提高其專業推理能力的重要方向。
開源模型的表現雖然整體不如商業模型,但也有一些亮點。Qwen2-VL-72B和DeepSeek-VL2等模型的表現已經超過了人類在閉卷考試中的水平,這對開源AI的發展來說是個積極信號。
四、AI犯錯的"五宗罪"
為了深入了解AI模型在專業視頻理解中的問題,研究團隊進行了詳細的錯誤分析。他們發現AI模型主要在五個方面容易出錯,這些錯誤類型就像是學生考試中常見的失分點。
第一類錯誤是"視覺感知錯誤",占所有錯誤的18%。這就好比學生看走了眼,把題目中的關鍵信息看錯了。比如在一個演示二叉樹遍歷算法的視頻中,AI模型明明看到的是深度優先搜索的過程,卻錯誤地識別成了廣度優先搜索,完全顛倒了遍歷順序。還有一個有趣的例子是,在一個電磁學實驗視頻中,AI模型把逐漸變透明的設備外殼誤認為是水,導致對整個實驗過程的理解完全錯誤。
第二類是"視覺感知中的專業知識誤用",占20%。這類錯誤更加復雜,AI模型雖然能看到視頻中的內容,但缺乏相應的專業知識來正確解釋所看到的現象。例如,在一個計算機算法演示視頻中,AI模型看到了屏幕上不斷變化的數字,但錯誤地將這些數組索引當作了要排序的數值,從而得出了錯誤的算法類型判斷。
第三類是"推理中的專業知識誤用",這是最常見的錯誤類型,占27%。在這種情況下,AI模型能夠正確理解視頻內容,但在運用專業知識進行推理時出現了偏差。一個典型例子是在生物學視頻分析中,模型雖然正確觀察到了物種分布的變化,但錯誤地將其歸因于物種遷移,而實際上應該是大陸漂移導致的地理隔離。
第四類錯誤是"過度依賴文字信息",占20%。這就像是學生只看題目文字,完全忽略了配圖或實驗現象。一些AI模型在回答問題時,主要基于問題中的文字描述進行推理,而忽視了視頻中的關鍵信息。比如在一個醫學案例中,視頻清楚地展示了水代謝異常的過程,但AI模型卻基于問題中提到的細胞功能,選擇了與鈉鉀泵相關的答案,完全偏離了視頻的核心內容。
第五類是"邏輯推理錯誤",占6%。這類錯誤表現為AI模型在推理過程中出現自相矛盾或邏輯不一致的情況。例如,在一個機械工程問題中,AI模型在分析過程中既承認了彈性勢能和動能之間可以相互轉換,也承認了重力勢能和動能之間的轉換關系,但在最終結論中卻否認了重力勢能向彈性勢能的轉換可能性,這顯然是邏輯上的矛盾。
最后還有9%的錯誤歸類為"其他類型",包括拒絕回答、輸出超長或重復等技術性問題。
這些錯誤分析為AI模型的改進指明了方向。顯然,當前的AI模型需要在專業知識的整合運用、復雜視覺場景的理解,以及邏輯一致性等方面進行重點改進。
五、人類專家的表現標桿
為了給AI模型的表現提供一個對比標準,研究團隊還測試了人類專家在相同任務上的表現。他們邀請了5位專業人士,包括生物學、麻醉學和東亞文學等領域的研究生,以及部分論文作者,來回答隨機抽取的120道題目。
測試分為三個階段,就像是模擬不同難度等級的考試環境。第一階段是"閉卷考試",參與者只能依靠自己的知識儲備,在3.5小時內完成答題,不允許查閱任何外部資料。結果人類專家的平均準確率是49.7%,這個成績雖然不算很高,但考慮到題目的跨學科性質和專業難度,這個結果是可以理解的。畢竟,讓一個生物學專家去回答工程學問題,或者讓文學專家解答醫學問題,確實具有挑戰性。
第二階段是"開卷考試",參與者可以使用互聯網、教科書等外部資源來輔助答題,時間限制為4小時。這種情況下,人類專家的平均準確率大幅提升到86.8%。這個結果反映了專業知識的重要性,也說明當人類能夠查閱相關資料時,他們的表現會顯著改善。這種提升幅度也從側面證明了MMVU測試題目的專業性和挑戰性。
第三階段是"標準答案指導下的修正",參與者可以參考標準答案中提供的專業知識和在線資源來修正自己的答案。在這種"開卷+有提示"的情況下,人類專家的準確率達到了95.3%。這個結果表明,當獲得適當的知識支持時,人類專家基本能夠正確理解和分析這些專業視頻內容。
這三個階段的結果為AI模型的表現提供了重要的參考標準。目前表現最好的o1模型達到80%的準確率,已經非常接近人類專家在開卷考試中的表現,這是一個相當令人印象深刻的成績。但大多數其他AI模型的表現還遠低于人類專家的開卷考試水平,說明在專業視頻理解方面還有很大的提升空間。
這個對比也揭示了一個有趣的現象:人類專家在有外部知識支持的情況下表現顯著提升,這提示我們未來的AI系統可能也需要更好地整合外部知識庫和實時信息檢索能力。
六、測試結果的深層含義
MMVU測試的結果揭示了當前AI技術發展中的一些重要趨勢和挑戰。首先,系統級思維能力的重要性得到了明確體現。那些能夠進行長時間推理的模型,如o1和Gemini 2.0 Flash Thinking,在測試中表現明顯優于其他模型。這就好比在解決復雜問題時,那些愿意花時間仔細思考、多角度分析的學生往往能取得更好的成績。
鏈式思維推理也顯示出了明顯的優勢。當AI模型被要求先展示推理過程再給出答案時,它們的準確率普遍高于直接給答案的方式。這個發現其實符合人類學習和思維的規律:當我們把思考過程說出來或寫出來時,往往能發現自己推理中的錯誤,從而得到更準確的結果。
開源模型的進步也值得關注。雖然整體表現還不如商業模型,但一些開源模型如Qwen2-VL-72B和DeepSeek-VL2已經達到了相當不錯的水平,甚至在某些方面超過了人類的閉卷考試表現。這表明開源AI社區的技術發展速度很快,未來可能會在某些應用領域與商業模型形成競爭。
測試還揭示了當前AI模型在專業領域應用中的局限性。即使是表現最好的模型,在面對需要深度專業知識的視頻理解任務時,仍然與人類專家存在明顯差距。這提醒我們,在醫療診斷、工程設計、科學研究等關鍵領域,AI系統還需要更多的改進才能真正勝任專業工作。
從錯誤分析中我們可以看到,當前AI模型的問題不僅僅是技術層面的,更涉及到知識整合、邏輯推理和上下文理解等深層認知能力。這些發現為未來的AI研究指明了方向:需要更加注重多模態信息的綜合處理、專業知識的有效整合,以及推理能力的提升。
說到底,MMVU不僅僅是一個測試工具,更像是一面鏡子,映照出當前AI技術在專業應用領域的真實水平。它告訴我們,雖然AI在很多方面已經非常先進,但在需要深度專業知識和復雜推理的任務中,仍然有很長的路要走。這個發現對于那些期望在近期內看到AI完全替代專業人士的預期來說,提供了一個更加現實的參考。
同時,這項研究也為AI技術的未來發展提供了一個清晰的路線圖。隨著模型能力的不斷提升,特別是在系統級思維和專業知識整合方面的改進,我們有理由相信未來的AI系統將能夠在更多專業領域發揮重要作用。MMVU作為一個持續的評估標準,將幫助我們追蹤這一進步過程,并為相關技術的發展提供重要指導。
Q&A
Q1:MMVU是什么?它與普通的AI測試有什么不同?
A:MMVU是耶魯大學開發的專門測試AI模型專業視頻理解能力的評估系統。與普通AI測試不同,MMVU要求AI觀看真實的專業領域視頻(如化學實驗、醫學手術、工程演示等),然后回答需要專業知識和推理能力的問題,就像讓AI參加各個專業的"高考"一樣。
Q2:目前最先進的AI模型在MMVU測試中表現如何?
A:表現最好的是OpenAI的o1模型,準確率達到80%,接近人類專家開卷考試的水平。其他模型如GPT-4o的準確率為66.7%,遠低于人類專家86.8%的開卷考試成績。這說明當前AI在專業視頻理解方面還有很大提升空間。
Q3:AI模型在專業視頻理解中主要犯哪些錯誤?
A:研究發現AI主要犯五類錯誤:視覺感知錯誤(18%,如看錯關鍵信息)、視覺感知中的專業知識誤用(20%)、推理中的專業知識誤用(27%,最常見)、過度依賴文字信息而忽視視頻內容(20%),以及邏輯推理錯誤(6%)。這些錯誤揭示了AI在專業知識整合和復雜推理方面的不足。





京公網安備 11011402013531號