核心概念
画像生成モデルを使って生成された画像を訓練データに使うことで、将来のコンピュータービジョンモデルにどのようなバイアスが生じるかを調査した。
要約
本論文では、深層生成モデルによって生成された画像を訓練データに段階的に置き換えていく実験を行い、その結果がどのようにバイアスに影響するかを分析した。
実験では、COCO及びCC3Mデータセットを使用し、Stable Diffusionで生成した画像を徐々に置き換えていった。その上で、OpenCLIPによる画像検索タスクと、TransformerおよびClipCapによる画像キャプショニングタスクにおけるバイアスを評価した。
結果として、バイアスの増幅や軽減、変化がないなど、一貫した傾向は見られず、状況によって異なる影響が確認された。これは、元のデータセットに内在するバイアスや、Stable Diffusionによる生成画像の特性(顔の不鮮明さなど)が影響しているためと考えられる。
全体として、生成画像の使用がバイアスに及ぼす影響は複雑で、一概に増幅するとは限らないことが示された。ただし、一部のバイアス増幅も確認されたため、バイアス対策は重要であると指摘している。
統計
生成画像の割合が増えるにつれ、OpenCLIPの性能は安定していた。
一方、キャプショニングモデルのCLIPScoreは生成画像の割合が80%を超えると大幅に低下した。