本研究は、大規模ビジョン言語モデル(LVLM)における社会的偏見を解明することを目的としている。具体的には、入力画像の人物の人種、性別、身体的特徴を変化させた反実仮想画像を用いて、LVLMが生成するテキストの違いを分析した。
主な結果は以下の通り:
多くのLVLMが、極端な毒性や攻撃性を含むテキストを生成することが明らかになった。これは、LVLMが大規模に適用された場合に深刻な問題となる可能性がある。
InstructBLIPは、毒性と侮辱の指標が最も高く、BakLLaVAは、アイデンティティ攻撃とフリーテーションの指標が最も高かった。
モデルサイズや基盤となる言語モデルの違いは、観察された偏見の差異にほとんど影響を与えなかった。
身体的特徴(肥満、老齢、刺青など)や人種、性別によって、生成されるテキストの内容が大きく異なることが示された。特に、肥満や老齢の男性、肥満の女性に対して、より否定的な表現が生成される傾向にあった。
人種や性別の違いによって、特定の職業に関する能力を表す言葉の頻度にも大きな差異が見られた。
本研究の結果は、LVLMにおける深刻な社会的偏見の存在を明らかにしており、これらのモデルの公平性と信頼性を高めるための取り組みの必要性を示唆している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問