Core Concepts
テキストから画像生成モデルには顕著な社会的偏見が存在し、それが社会的弊害を引き起こす可能性がある。本調査では、これまでの研究で明らかにされた性別、肌の色、地理文化的な偏見について、その定義、評価手法、軽減手法を包括的に検討する。
Abstract
本調査は、テキストから画像生成(T2I)モデルにおける偏見に関する先行研究を包括的に検討したものである。
まず、先行研究では主に3つの偏見の側面が研究されていることが分かった:
性別偏見: T2Iモデルは特定の性別に偏った画像を生成する傾向がある。多くの研究では職業との関連性に着目しているが、画質や権力関係などの側面も一部で検討されている。ただし、非二元的な性別への配慮は十分ではない。
肌の色の偏見: T2Iモデルは特定の肌の色の人物を過剰/過小に表現する傾向がある。職業や特性との関連性が主に検討されている。
地理文化的偏見: T2Iモデルは特定の地域や文化を過剰に表現し、他の地域や文化を過小に表現する傾向がある。文化的規範や特性との関連性が検討されている。
次に、偏見の評価手法について、先行研究では主に分類器ベースのメトリクスや埋め込みベースのメトリクスが用いられているが、統一的な評価フレームワークは未だ確立されていない。
最後に、偏見の軽減手法として、モデルの重み調整や推論時/データベースアプローチが提案されているが、依然として有効な解決策は見出されていない。
本調査では、人中心の偏見定義、評価、軽減アプローチの重要性を指摘し、今後の研究の方向性を示唆している。
Stats
T2Iモデルは白人男性CEOが世界を支配していると描写する一方で、肌の色の濃い男性は犯罪を、肌の色の濃い女性はハンバーガーを作っているように描写する傾向がある。