核心概念
現有的電腦視覺模型評估方法主要關注技術性能,而忽略了社會科學研究中重要的社會偏見。本文提出了一個社會技術框架,用於評估電腦視覺模型在性別和情緒識別方面的表現,強調了註釋者偏見、表徵偏見和歧視性偏見的重要性,並呼籲在開發和應用電腦視覺技術時更加重視社會公平性。
引言
視覺在傳播中扮演著至關重要的角色,電腦視覺 (CV) 技術的發展為理解和詮釋人類行為、社會互動和媒體內容開闢了新的途徑。
大型語言模型 (LLM) 的出現,例如 GPT-4 和 Gemini Pro,為分析圖像提供了新的工具,它們可以生成描述性字幕、將視覺內容置於情境中,並推斷複雜的屬性,包括情緒和社會角色。
然而,電腦視覺模型,包括那些由 LLM 支持的模型,因其固有的社會偏見而受到批評,這些偏見通常源於用於訓練模型的數據,這些數據可能反映和延續社會刻板印象和偏見。
現有電腦視覺模型評估方法的不足
現有的電腦視覺模型評估方法通常側重於使用精確率、召回率和準確率將圖像標記與人類基準進行比較,或計算語義一致性來評估圖像聚類方法的質量。
然而,在衡量社會科學研究的概念時,例如對圖像中的性別進行分類,僅僅驗證準確性指標是不夠的。
目前的評估模型側重於這些模型是否能在「命中或錯過」的範式內捕捉到研究人員感興趣的理論概念,而沒有充分考慮這些工具是否準確地反映了這些概念,尤其是在社會政治偏見的背景下。
社會技術評估框架
為了填補這一空白,本文提出了一個社會技術框架,用於評估電腦視覺 (CV) 模型,重點關注性別和情緒,因為它們是傳播研究中最突出的社會特徵之一,但在電腦視覺模型中潛在的偏見方面仍未得到充分探索。具體來說,我們確定了在評估電腦視覺模型測量性別和情緒時需要檢查的三種類型的偏見:1) 註釋者偏見,2) 表徵偏見,和 3) 歧視性偏見。
標準一:註釋者偏見
即使是受過訓練的人類註釋者也容易受到其訓練、人口統計背景、知識、意識形態和文化影響的偏見。
建議最佳驗證實踐涉及組建一個多元化和具有代表性的人類評審團,應訓練他們理解性別和情緒等結構的流動性,承認它們的可變性,而不是將它們視為固定的類別。
標準二:表徵偏見
「表徵偏見」指的是電腦視覺模型通常無法準確捕捉性別和面部情緒等結構的複雜性和細微差別。
評估模型的能力並評估其是否可以衡量這些結構的細微差別至關重要。
一種評估模型有效性的有效方法是將其性能與當前關於性別的學術論述進行比較,這對於確定電腦視覺模型是否可以複製人類對這些複雜社會結構的理解和分類的深度至關重要。
標準三:歧視性偏見
即使是先進的電腦視覺 (CV) 模型也可能仍然存在歧視性偏見,這意味著由於訓練數據或算法設計中的問題,它們會不公平地對待或歪曲某些群體。
這種歧視性偏見通常以兩種主要方式出現:分類偏見和拒絕偏見。
分類偏見是指模型優先識別某些特徵而不是其他特徵的不同能力。
拒絕偏見,定義為電腦視覺模型拒絕為某些角色提供輸出或猶豫為分類任務產生完整輸出。
結論
本文提出了這個社會技術框架,用於診斷使用現成的電腦視覺模型和生成式電腦視覺模型研究性別和情緒表達時的各種偏見。
對於生成式電腦視覺模型,我們以 OpenAI 的 GPT-4 Vision 模型為例,因為它是目前最流行的生成式 AI 模型之一,而且研究人員越來越多地應用大型多模態語言數據集來檢查圖像。
我們的論文重點是提供經验证據來說明標準 3,該標準突出了電腦視覺模型可能引入的兩種類型的歧視性偏見——分類偏見和拒絕偏見。
統計資料
研究人員收集了在 YouTube 和 TikTok 上傳播的與疫苗接種和氣候變化主題相關的圖像 (N = 5,570)。
為了評估 GPT-4V 模型在「命中或錯過」範式內的有效性,從數據庫中抽取了 150 張圖像。
三名訓練有素的研究人員手動檢查了 150 張圖像,並僅選擇了 87 張包含單張面孔的圖像來註釋該樣本的性別和情緒,作為此有效性偏差評估的基準。
為了通過測試不同的角色來檢查 GPT-4V 模型的歧視性偏見,我們從數據庫中抽取了 1965 張圖像。
應用 DeepFace 包自動識別單個面部 (N = 715),因為我們發現 DeepFace 是與其他工具相比最準確的單面部識別電腦視覺工具。
一名人工編碼員受僱審查 DeepFace 算法識別的所有圖像。人工驗證的目的是確認每張圖像僅包含一張面孔以供後續分析 (N=630)。