![]()
計算機視覺(CV)技術,廣泛應用于自動駕駛汽車、消費電子設備等眾多領域。其中,圖像數據集扮演著基礎性的角色,ImageNet 等大型圖像數據集的出現,使計算機視覺領域實現了革命性突破。
然而,過去十年,大多數數據集的數據采集依賴網絡抓取,仍然存在未經授權、缺乏多樣性、知情同意以及補償相關的倫理問題。
數據的“先天不足”不僅削弱了人工智能(AI)系統的公平性和準確性,還在無形中強化了種族、性別等社會偏見。
例如,有研究指出,商業人臉識別系統在識別深膚色女性時的錯誤率遠高于淺膚色男性;部分知名數據集因數據收集的倫理爭議相繼撤回,即便仍在使用的數據集,如 COCO、VQA2.0 或 MIAP,在人口多樣性和自我報告信息方面仍存在明顯缺陷。
在這一背景下,Sony AI 推出了全球首個公開可用的、全球多樣化的、基于用戶同意的數據集——FHIBE,專門用于評估以人為中心的計算機視覺任務的公平性。
據介紹,FHIBE 收錄了來自 81 個國家和地區的 10318 張圖像,涉及 1981 位獨立個體,涵蓋從人臉識別到視覺問答等廣泛視覺任務。
此外,FHIBE 擁有迄今最全面的標注信息,包括人口統計特征、物理屬性、環境因素、儀器參數及像素級標注數據,能夠實現更細致的偏見診斷,幫助從業者精準定位偏見來源并有效防范潛在風險。
相關研究論文以“
Fair human-centric image dataset for ethical AI benchmarking”為題,已發表在權威科學期刊Nature上。
![]()
論文鏈接:https://www.nature.com/articles/s41586-025-09716-2
“由于大多數計算機視覺任務缺乏公開可用的、符合倫理規范的數據集,即使是檢查偏見這一最基本的第一步也十分困難,”索尼全球人工智能治理負責人兼 FHIBE 首席研究員 Alice Xiang 表示,“我們希望開發者能夠在無需使用存在問題的數據集的情況下檢查人工智能中的偏見。”
這一成果是可信人工智能(Trustworthy AI)發展的重要里程碑,不僅提高了人工智能公平性基準的衡量標準,更為人工智能領域的負責任的數據管理提供了實現路徑。
全球首個,“以人為中心”
與以往不同,FHIBE 采用全球眾包和自我報告(self-reporting)的形式,由數據供應商面向 81 個國家地區征集圖像。每位參與者上傳自己拍攝的照片,并提供年齡、代詞(pronouns)、祖源區域、膚色等自我報告信息,形成 1234 個交叉群組。
為保障圖像數據的多樣性,圖像拍攝設備涵蓋 45 家廠商的 785 種相機型號,真實還原了 16 種場景類型、6 種光照條件、7 種天氣狀況、3 種拍攝角度及 5 種拍攝距離等。
與其他同類數據集相比,FHIBE 在區域分布上尤為均衡:非洲占 44.7%,亞洲與大洋洲占 40.6%,顯著改善了以往人像數據過度集中于北美與歐洲的問題。
![]()
圖|圖像主題、儀器和環境的注釋,FHIBE 中所有圖像的元數據均可獲取。
FHIBE 的每張圖像均附有自述姿勢、互動、外觀特征、年齡類別標注以及人臉、人物編輯框的像素級標注,包括 33 個關鍵點與 28 類分割標簽。每條標注均附有匿名化編號以及標注者主動披露的人口統計信息,以保證可追溯性與透明度。據論文介紹,這種像素級標注與屬性標簽相結合的方式,使得FHIBE成為“當前最全面標注的公平性數據集”。
![]()
圖|FHIBE 圖像示例,包含詳細的像素級標注、關鍵點、分割掩碼和邊界框。
值得一提的是,研究團隊在數據收集過程中嚴格遵守《通用數據保護條例》(GDPR)等保護法規,包含清晰條款的同意書,明確數據收集用途與披露要求、生物特征數據及敏感信息的處理方式等。參與者在充分了解用途后自愿簽署知情同意書,明確同意其生物特征數據用于 AI 公平性研究,并保留隨時撤回同意的權利。
此外,通過生成式擴散模型,研究團隊對出現在畫面中的非自愿主體及可識別個人身份的信息進行圖像修復(如移除旁觀者或車牌)與人工復核,避免了傳統隱私保護措施可能造成的再識別風險。
AI也會“看走眼”:對現有模型的公平性評估
除了在倫理上符合規范,FHIBE 在方法論上同樣十分嚴謹,主要包括:
人口統計 + 表型細節:參與者自我報告的屬性,如代詞、祖源、年齡組、發型、妝容和頭飾。
環境背景:圖像包含有關光照、天氣和場景類型的元數據。
精確標注:邊界框、關鍵點和分割掩碼等。
僅評估設計:FHIBE 是一個偏見審查數據集。確保僅用于衡量公平性,而不是強化偏見。
這為其廣泛應用于模型的公平性評估提供了條件。通過 FHIBE,研究團隊對當前多種主流窄模型和通用基礎模型的偏見問題進行了系統測試,具體包括8類計算機視覺任務:姿態估計、人物分割、人物檢測、人臉檢測、人臉解析、人臉驗證、人臉重建及人臉超分辨率。
研究發現,基于交叉群組(代詞×年齡×祖源×膚色)的分析,年輕(18-29 歲)、膚色較淺、亞洲血統的群體往往獲得較高準確率;而對于年長(50 歲以上)、膚色較深、非洲血統的群體,模型識別的準確率較低。
不同模型在具體交叉組合中的表現同樣存在差異。例如,在人臉檢測方面,RetinaFace 在“she/her/hers × I型 × 亞洲”組合中表現最佳,在“he/him/his × II型 × 非洲”組合中表現最差;而 MTCNN 則在“she/her/hers × II型 × 非洲”組合中表現最佳,在“he/him/his × IV型 × 歐洲”組合中表現最差。
此外,FHIBE 還發現了之前未被識別的細微偏見,例如:
由于對灰白發色人群的識別能力不足,面部解析模型在處理年長個體時的表現較差。
由于發型差異性較大,人臉驗證模型識別女性群體的準確率更低。
針對以上差異,FHIBE 能夠通過特征回歸與決策樹分析的方式,識別出與人物檢測性能相關的干擾因素,包括身體姿態(如躺臥姿勢)、主體互動(如擁抱/親吻)、圖像縱橫比以及關鍵點可見度等(反映身體遮擋程度)等。
在多模態基礎模型方面,團隊重點測試了 CLIP 與 BLIP-2 兩款主流模型。結果顯示:
CLIP:在圖像分類任務中,CLIP 對使用“he/him/his”代詞的圖像(0.69)比使用“she/her/hers”代詞的圖像(0.38)更傾向于賦予中性標簽(未指定),反映出男性的默認化傾向;存在對其他圖像屬性的關聯偏差,例如常常將非洲或亞裔個體與“戶外”“農村”場景相綁定等。
![]()
圖|CLIP 在 FHIBE 數據集預測中的偏差
BLIP-2:在開放式問答中,即使問題未涉及性別或種族信息,BLIP-2 也會生成帶有性別或種族偏見的描述;對于“犯罪”等負面提示,在非洲或亞洲個體、膚色較深的個體、“he/him/his”的個體中引發了更高的有害刻板印象。
![]()
圖|BLIP-2 分析結果
論文指出,FHIBE 是推動更負責任的人工智能發展的轉折點,為未來開展倫理化的數據收集工作鋪平道路。但與此同時,研究團隊也坦承,這種以倫理為驅動、以人為本的共識式采集模式仍存在現實局限性,具體包括:
成本高昂。參與者招募、審核與補償需要大量人力與資金,遠高于網絡爬取方式。
視覺多樣性不足。相較于網絡抓取,共識式收集的數據具有更高的標準化程度,視覺多樣性較低,但明顯優于其他基于同意的數據集(如CCv1、CCv2)。
存在欺詐風險。個體自我報告存在誤填或虛報的可能,高額補償可能誘發參與者虛假申報身份,需要依賴反向搜索與人工審核排查可疑樣本。
在未來,研究團隊希望,以 FHIBE 為起點整合全面且經共識獲取的圖像與標注數據,推動計算機視覺領域在數據收集、知情同意、隱私保護與多樣性設計上的制度化實踐。
另一方面,他們也希望發揮 FHIBE 作為檢測工具的作用,通過對模型的性能與偏見的評估監測,助力開發更具包容性與可信度的人工智能系統。





京公網安備 11011402013531號