![]()
智東西
編譯 程茜
編輯 心緣
AI能聽懂你的“話外音”了?
智東西7月8日消息,近日,阿里通義實驗室開源多模態推理模型HumanOmniV2。
HumanOmniV2通過引入強制上下文總結機制、大模型驅動的多維度獎勵體系,以及基于GRPO的優化訓練方法,實現了對多模態信息的全面理解,使得模型不會錯過圖像、視頻、音頻中的隱藏信息,一定程度上規避其在全局上下文理解不足和推理路徑簡單上的問題。
如在生成最終答案前,模型會輸出一個標簽內的上下文概括,系統性分析多模態輸入內容中的視覺、聽覺、語音信號,為后面的推理過程提供依據。如下圖提問“女人為什么翻白眼”,HumanOmniV2基于視頻、音頻等信息給出正確答案“她的翻白眼更像是對一個潛在敏感話題的夸張、俏皮的反應,非對其他人表示不滿”。
![]()
現階段HumanOmniV2已開源。阿里通義團隊還推出包含633個視頻和2689個相關問題的評測基準IntentBench,在此之上,HumanOmniV2準確率達到69.33%。
![]()
論文:https://arxiv.org/abs/2506.21277
GitHub:https://github.com/HumanMLLM/HumanOmniV2
魔搭社區:https://modelscope.cn/models/iic/humanomniv2
Hugging Face:https://huggingface.co/PhilipC/HumanOmniV2
IntentBench評測基準:https://huggingface.co/datasets/PhilipC/IntentBench
一、結合上下文、音視頻背景信息,讀懂人物的“話外音”
根據上面視頻的內容,當詢問模型“視頻中的人過去一年中最難忘的經歷是什么?視頻中的人在回答問題時是否在撒謊?”時。
基于GRPO的模型,通過演講人的肢體語言、面部表情判斷其沒有說謊,HumanOmniV2而是結合了視頻中人物所處的環境、語氣,并結合視覺、聽覺因素綜合判斷,得出了他沒有說出全部最難忘經歷的答案。
![]()
第二個視頻是一段電視采訪節目,提問模型“這兩個人的關系”并給出了4個選項。
HumanOmniV2在推理過程中,會捕獲多模態輸入中更為細粒度的視頻和音頻線索,如“黑裙女子以平靜溫和的語氣回應”、“刻意放慢說話速度以緩解緊張情緒”、“淺藍色襯衫的男人用快速而興奮的語氣說話”等。
![]()
第三個視頻讓模型判斷視頻中男子的主要情緒。
HumanOmniV2的回應是無奈、憤怒,基于GRPO的模型的回答僅有憤怒。HumanOmniV2通過結合視頻中人物的嘆息、緊張表情,判斷他除了憤怒還處于一種無法處理當前事態的無奈狀態。
![]()
二、多模態模型推理兩大瓶頸:上下文理解不足、無法深度邏輯推理
現有多模態推理模型存在兩個問題:全局上下文理解不足和推理路徑簡單,缺乏深度邏輯推理問題。
上下文理解不足是指模型誤解多模態上下文,從而生成錯誤答案;推理路徑簡單問題是指模型忽略多模態輸入中的關鍵線索,直接處理查詢而不考慮多模態信息。
例如在下面場景中,多模態大模型只聽到了“可以做朋友”,忽略了“頭巾=不是基督徒=不約會”邏輯鏈。
此外,在判斷男士情緒時,模型基于“可以做朋友”這句看似積極的話,忽視潛在的視覺、聽覺線索:男士可能出現的嘴角下垂/眼神回避、女士說“可能不行”后的3秒沉默、人類社交中的矛盾信號。
![]()
受DeepSeek-R1啟發,諸多多模態模型的推理采用GRPO算法,也就是給定一個多模態輸入和一個問題,促使多模態模型生成一個可得出答案的推理鏈,然而直接采用GRPO的模型會嚴重依賴文本推理,忽略豐富的多模態線索及其全面的理解。
三、大模型驅動的多維度獎勵,打造全模態推理訓練數據集、基準測試
在此基礎上,阿里通義團隊要求模型基于對多模態輸入中全局上下文的精確理解進行推理。
基于此,模型首先在輸出上下文信息,這可以防止模型繞過關鍵的多模態輸入信息,并為其隨后的推理過程提供依據。例如,當有人說“no”時,只有在完整的上下文中,模型才能確定它是拒絕、玩笑還是反向請求。
為了確保模型準確理解多模態上下文信息,研究人員還引入了大模型驅動的多維度獎勵機制,包括上下文獎勵、格式獎勵、準確性獎勵和邏輯獎勵。
上下文獎勵是讓大模型比較參考上下文和模型輸出之間的一致性評估,指導模型提高對上下文的理解,格式獎勵確保其輸出內容符合結構化要求,準確性獎勵用來提升模型回答的正確率,邏輯獎勵是評估推理過程是否整合了多模態信息并結合了邏輯分析技術,如反射、演繹和歸納。
![]()
同時,阿里通義團隊基于Qwen2.5-Omni-Thinker架構,對GRPO進行了多項改進:
包括引入詞元級損失(Token-level Loss),解決長序列訓練中常見的不平衡問題;移除問題級歸一化項,避免不同難度樣本之間的權重偏差;應用動態KL散度機制,在訓練初期鼓勵探索,在后期穩定收斂,提升模型的泛化能力和訓練穩定性。
在數據方面,多模態模型進行推理的挑戰還在于缺乏大規模人工標注推理數據,因此,阿里通義團隊開發了一個全模態推理訓練數據集,融合了圖像、視頻和音頻等任務的上下文信息。
另一大挑戰是缺乏相關基準來有效評估其性能,為此研究人推出推理全模態基準測試IntentBench,旨在評估模型理解復雜人類意圖和情感的能力。它包括633個視頻和2689個與視頻中的聽覺和視覺線索相關的問題。這個基準需要模型對全球背景有深刻的理解和推理、仔細的觀察和復雜的社會關系。
在此基礎上,阿里通義團隊開源的HumanOmniV2,它在開源全模態模型中取得了最佳性能,在一般感知場景測試集Daily-Omni上得分為58.47%,在一般感知場景測試集WorldSense上得分為47.1%,在IntentBench上得分為69.33%。
![]()
結語:阿里繼續開源,為AI理解人類復雜意圖提供參考
阿里通義團隊在多模態模型方面的探索,降低了模型在推理過程中出現錯誤的可能性,為AI在理解和建模人類復雜意圖方面提供了參考。但其論文也提到,這種響應格式可能限制模型在接下來的思考過程中糾正上下文信息的能力,再加上其基于7B模型進行實驗,有無法在參數規模更大的模型中保證一致性的風險。
未來隨著上下文和預訓練規模的擴大,阿里通義團隊將探索在推理過程中對多模態信息進行多重驗證的方法,以提高準確性。





京公網安備 11011402013531號