核心概念
大規模な画像テキストペアコーパスで学習されたビジョン言語モデルは、画像モジュール、特に画像エンコーダーが、テキストモジュールよりもモデルのバイアスに大きく寄与し、そのバイアスは互いに強め合う傾向があることが明らかになった。
要約
画像認識モデルにおけるバイアス:因果媒介分析を用いた理解と軽減
この研究論文は、大規模な画像テキストペアコーパスで学習されたビジョン言語モデル(VLM)におけるバイアスの発生と伝播経路を、因果媒介分析を用いて測定・理解するための標準化されたフレームワークを提案しています。
VLMにおけるバイアスの発生源と伝播経路を特定し、定量化する。
モデルのバイアスに対する各モジュールの寄与度、特に画像モジュールとテキストモジュールの影響を調査する。
得られた知見に基づき、効果的なバイアス軽減戦略を提案する。
物体検出タスクにおけるVLMのバイアスを評価する新しい指標BIASVLを導入。
入力モジュールに介入(replace-gender、mask-gender)を行い、BIASVL値の変化を観察することで因果媒介分析を実施。
画像エンコーダー、テキストエンコーダー、深層融合エンコーダーの各モジュールにおけるバイアスへの影響を分析。
MSCOCOデータセットとPASCAL-SENTENCEデータセットを用いて実験を実施。