本研究では、テキストからイメージ生成(T2I)モデルの内在的な偏りと悪意のある操作の可能性について調査している。
まず、言語モデルの埋め込み空間を対象とした新しい偏り操作手法を提案した。ベクトル代数の数学的基礎を活用することで、出力の操作の程度を柔軟に制御できる。これにより、通常のテキストプロンプトでは生成が困難な画像を生成することも可能になる。
次に、提案手法を利用して、生成クラスの頻度を調整することで、性別、年齢、人種などの社会的偏りを軽減する手法を示した。
さらに、意味的に無関係なトリガーを使った動的なバックドア攻撃手法を提案した。これにより、攻撃の程度を調整することができる。
実験の結果、提案手法の有効性を定性的および定量的に示した。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询