核心概念
拡散モデルの内部表現に関連する不適切な概念を発見し、それらを操作することで、公平性、安全性、責任あるテキストガイダンスを持つ画像生成を実現する。
要約
本研究では、テキスト-画像拡散モデルの潜在空間内の意味的概念を自己発見する手法を提案した。
まず、特定の概念に関連する画像を生成し、その概念を表す潜在ベクトルを最適化する。
次に、発見された概念ベクトルを利用して、公平性、安全性、責任あるテキストガイダンスを持つ画像生成を実現した。
具体的には以下の通り:
- 公平性: 性別や人種などの属性に偏りのない画像を生成するため、概念ベクトルをランダムにサンプリングして使用する。
- 安全性: 不適切な内容(裸体、暴力など)を含まない画像を生成するため、安全関連の概念ベクトルを使用する。
- 責任あるテキストガイダンス: テキストプロンプトに含まれる責任あるコンセプトを強化するため、関連する概念ベクトルを活用する。
提案手法は、既存の安全性向上手法と組み合わせることで、さらなる改善が可能であることを示した。
また、発見された概念ベクトルは、一般的な意味的概念を表現できる汎用性も持つことを確認した。
統計
公平性生成では、元のStable Diffusionモデルに比べ、ジェンダーバイアスが大幅に改善された。
安全性生成では、不適切な内容(裸体、暴力など)を含む画像の割合が大幅に減少した。
責任あるテキストガイダンス生成では、テキストプロンプトに含まれる責任あるコンセプトが適切に反映された。