toplogo
登入

以社會技術視角評估電腦視覺模型:以圖像中性別和情緒的檢測與推理為例


核心概念
現有的電腦視覺模型評估方法主要關注技術性能,而忽略了社會科學研究中重要的社會偏見。本文提出了一個社會技術框架,用於評估電腦視覺模型在性別和情緒識別方面的表現,強調了註釋者偏見、表徵偏見和歧視性偏見的重要性,並呼籲在開發和應用電腦視覺技術時更加重視社會公平性。
摘要
edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

引言 視覺在傳播中扮演著至關重要的角色,電腦視覺 (CV) 技術的發展為理解和詮釋人類行為、社會互動和媒體內容開闢了新的途徑。 大型語言模型 (LLM) 的出現,例如 GPT-4 和 Gemini Pro,為分析圖像提供了新的工具,它們可以生成描述性字幕、將視覺內容置於情境中,並推斷複雜的屬性,包括情緒和社會角色。 然而,電腦視覺模型,包括那些由 LLM 支持的模型,因其固有的社會偏見而受到批評,這些偏見通常源於用於訓練模型的數據,這些數據可能反映和延續社會刻板印象和偏見。 現有電腦視覺模型評估方法的不足 現有的電腦視覺模型評估方法通常側重於使用精確率、召回率和準確率將圖像標記與人類基準進行比較,或計算語義一致性來評估圖像聚類方法的質量。 然而,在衡量社會科學研究的概念時,例如對圖像中的性別進行分類,僅僅驗證準確性指標是不夠的。 目前的評估模型側重於這些模型是否能在「命中或錯過」的範式內捕捉到研究人員感興趣的理論概念,而沒有充分考慮這些工具是否準確地反映了這些概念,尤其是在社會政治偏見的背景下。 社會技術評估框架 為了填補這一空白,本文提出了一個社會技術框架,用於評估電腦視覺 (CV) 模型,重點關注性別和情緒,因為它們是傳播研究中最突出的社會特徵之一,但在電腦視覺模型中潛在的偏見方面仍未得到充分探索。具體來說,我們確定了在評估電腦視覺模型測量性別和情緒時需要檢查的三種類型的偏見:1) 註釋者偏見,2) 表徵偏見,和 3) 歧視性偏見。 標準一:註釋者偏見 即使是受過訓練的人類註釋者也容易受到其訓練、人口統計背景、知識、意識形態和文化影響的偏見。 建議最佳驗證實踐涉及組建一個多元化和具有代表性的人類評審團,應訓練他們理解性別和情緒等結構的流動性,承認它們的可變性,而不是將它們視為固定的類別。 標準二:表徵偏見 「表徵偏見」指的是電腦視覺模型通常無法準確捕捉性別和面部情緒等結構的複雜性和細微差別。 評估模型的能力並評估其是否可以衡量這些結構的細微差別至關重要。 一種評估模型有效性的有效方法是將其性能與當前關於性別的學術論述進行比較,這對於確定電腦視覺模型是否可以複製人類對這些複雜社會結構的理解和分類的深度至關重要。 標準三:歧視性偏見 即使是先進的電腦視覺 (CV) 模型也可能仍然存在歧視性偏見,這意味著由於訓練數據或算法設計中的問題,它們會不公平地對待或歪曲某些群體。 這種歧視性偏見通常以兩種主要方式出現:分類偏見和拒絕偏見。 分類偏見是指模型優先識別某些特徵而不是其他特徵的不同能力。 拒絕偏見,定義為電腦視覺模型拒絕為某些角色提供輸出或猶豫為分類任務產生完整輸出。 結論 本文提出了這個社會技術框架,用於診斷使用現成的電腦視覺模型和生成式電腦視覺模型研究性別和情緒表達時的各種偏見。 對於生成式電腦視覺模型,我們以 OpenAI 的 GPT-4 Vision 模型為例,因為它是目前最流行的生成式 AI 模型之一,而且研究人員越來越多地應用大型多模態語言數據集來檢查圖像。 我們的論文重點是提供經验证據來說明標準 3,該標準突出了電腦視覺模型可能引入的兩種類型的歧視性偏見——分類偏見和拒絕偏見。
統計資料
研究人員收集了在 YouTube 和 TikTok 上傳播的與疫苗接種和氣候變化主題相關的圖像 (N = 5,570)。 為了評估 GPT-4V 模型在「命中或錯過」範式內的有效性,從數據庫中抽取了 150 張圖像。 三名訓練有素的研究人員手動檢查了 150 張圖像,並僅選擇了 87 張包含單張面孔的圖像來註釋該樣本的性別和情緒,作為此有效性偏差評估的基準。 為了通過測試不同的角色來檢查 GPT-4V 模型的歧視性偏見,我們從數據庫中抽取了 1965 張圖像。 應用 DeepFace 包自動識別單個面部 (N = 715),因為我們發現 DeepFace 是與其他工具相比最準確的單面部識別電腦視覺工具。 一名人工編碼員受僱審查 DeepFace 算法識別的所有圖像。人工驗證的目的是確認每張圖像僅包含一張面孔以供後續分析 (N=630)。

深入探究

如何在不加劇現有社會偏見的情況下,開發更具包容性和代表性的電腦視覺模型訓練數據集?

開發更具包容性和代表性的電腦視覺模型訓練數據集,是避免加劇現有社會偏見的關鍵,以下是一些可行方法: 數據收集的多樣性與代表性: 涵蓋不同社會群體: 確保數據集包含來自不同種族、性別、年齡、文化背景、性取向、性別認同和外貌特徵的人群圖像。 平衡群體比例: 避免數據集中出現某些群體過度代表或代表不足的情況,盡量保持各群體比例均衡。 多元的數據來源: 從多種來源收集數據,例如不同地區、不同攝影風格、不同社交平台等,避免單一來源數據帶來的偏見。 數據標註的去偏見化: 建立明確的標註指南: 制定客觀且全面的標註指南,避免標註過程中受到個人主觀意識和刻板印象的影響。 多樣化的標註團隊: 組建來自不同背景和經驗的標註團隊,可以有效減少單一視角帶來的偏見。 持續審查和修正: 定期審查數據集和標註結果,及時發現和修正潛在的偏見問題。 技術手段的輔助: 數據增強技術: 利用數據增強技術,例如圖像翻轉、旋轉、裁剪等,擴充代表性不足群體的數據量。 對抗訓練: 採用對抗訓練方法,訓練模型識別和消除數據中的偏見模式。 公平性指標評估: 使用公平性指標,例如人口統計平等、機會均等等,評估模型在不同群體上的表現差異,並針對性地進行調整。 與社會科學研究者的合作: 跨學科合作: 電腦科學家與社會科學家合作,將社會科學的理論和方法融入數據集的設計和評估中。 參考相關研究成果: 參考社會科學領域關於性別、種族、文化等方面的研究成果,更全面地理解社會偏見的表現形式,並將其納入數據集的構建過程中。 總之,開發去偏見化的電腦視覺模型訓練數據集需要多方面的努力,包括數據收集、標註、技術手段和跨學科合作等。只有綜合考慮這些因素,才能構建出更公平和包容的電腦視覺模型,避免加劇現有的社會偏見。

如果電腦視覺模型能夠準確識別和分類性別和情緒,是否意味著它真正理解了這些社會結構的複雜性和流動性?

即使電腦視覺模型能夠準確識別和分類性別和情緒,也不意味著它真正理解了這些社會結構的複雜性和流動性。 原因如下: 缺乏真正的理解能力: 電腦視覺模型的識別和分類能力是基於對大量數據的統計學習,而非真正的理解。它們只能根據數據中的模式進行匹配和預測,無法像人類一樣理解這些社會結構背後的文化、歷史和社會背景。 數據驅動的局限性: 電腦視覺模型的訓練數據通常反映了現有的社會偏見和刻板印象。即使模型能夠準確地識別和分類,也可能只是在複製和強化這些偏見,而非真正理解其複雜性。 社會結構的動態變化: 性別和情緒等社會結構並非靜態不變的,而是隨著時間和文化背景不斷演變。電腦視覺模型難以捕捉到這些動態變化,更無法理解其背後的社會因素和影響。 忽略個體差異: 電腦視覺模型傾向於將個體歸類到預先定義的類別中,而忽略了個體差異和獨特性。例如,即使模型能夠準確地區分男性和女性,也無法理解跨性別者或非二元性別者的性別認同。 結論: 電腦視覺模型的識別和分類能力是人工智能技術的一項重要進展,但我們必須清楚地認識到其局限性。將這些模型的結果解讀為對社會結構的真正理解是危險的,因為這可能導致對社會偏見的忽視和強化。在應用這些技術時,我們需要保持批判性思維,並結合社會科學的理論和方法,才能更全面地理解和應對社會問題。

在未來,人工智能會如何改變我們對社會身份和人際交往的理解?

人工智能的發展將從以下幾個方面深刻改變我們對社會身份和人際交往的理解: 重新定義社會身份: 挑戰傳統分類: 人工智能的分析能力可能挑戰基於性別、種族、文化等因素的傳統社會分類方式,促使我們更加關注個體的獨特性和多元性。 數據化身份認同: 人工智能可能會根據我們的線上行為、社交關係和興趣愛好等數據,構建出更加精確和個性化的身份標籤,影響我們對自身和他人身份的認知。 虛擬身份的興起: 隨著虛擬現實和元宇宙等技術的發展,人工智能可能會創造出更加逼真的虛擬身份,模糊現實世界和虛擬世界之間的界限,進一步影響我們對身份的理解。 重塑人際交往模式: 個性化溝通: 人工智能可以分析我們的溝通風格和偏好,幫助我們更有效地與他人溝通,但也可能加劇信息繭房效應,強化現有的社會分化。 虛擬社交的普及: 人工智能驅動的虛擬助手、聊天機器人和社交機器人將在人際交往中扮演越來越重要的角色,改變我們與他人建立和維持關係的方式。 情感識別與模擬: 人工智能的情感識別和模擬技術將使機器能夠更好地理解和回應人類的情感需求,但也引發了關於隱私、倫理和人機關係的擔憂。 促進社會包容性: 打破偏見和歧視: 人工智能可以幫助我們識別和消除社會偏見,例如在招聘、教育和醫療等領域,促進更加公平和包容的社會環境。 賦能邊緣群體: 人工智能可以為邊緣群體提供更多機會和資源,例如通過個性化教育和輔助技術,幫助他們更好地融入社會。 促進跨文化理解: 人工智能可以幫助我們克服語言和文化障礙,促進不同文化之間的交流和理解。 倫理和社會挑戰: 算法偏見: 人工智能算法可能反映和放大現有的社會偏見,加劇社會不平等。 隱私和數據安全: 人工智能的發展需要收集和分析大量的個人數據,引發了關於隱私和數據安全的擔憂。 人機關係的倫理: 隨著人工智能越來越像人類,我們需要思考如何與機器建立健康和倫理的人機關係。 總之,人工智能將深刻改變我們對社會身份和人際交往的理解,帶來機遇和挑戰。我們需要積極應對這些變化,利用人工智能的優勢,同時警惕其潛在風險,以創造更加公正、平等和包容的社會。
0
star