本論文では、責任あるビジュアルエディティングという新しいタスクを提案しています。このタスクでは、画像内の特定の概念を編集して、可能な限り変更を最小限に抑えつつ、より責任あるものに変換することが目的です。
具体的には、安全性、公平性、プライバシーの3つのサブタスクに分けて取り組んでいます。
安全性タスクでは、画像から差別や暴力などの有害な要素を完全に除去します。公平性タスクでは、特定の概念の多様性を高めます。プライバシータスクでは、特定の人物の特徴をぼかします。
これらの課題に取り組むため、著者らは、大規模マルチモーダルモデルを活用した認知エディター(CoEditor)を提案しています。CoEditorは、(1)認知的知覚プロセスと(2)認知的行動プロセスの2段階のプロセスを経て、画像の理解と編集を行います。
さらに、著者らは、テディベアを主人公とした透明性の高いデータセット「AltBear」を作成しました。これにより、有害な画像が研究に及ぼす悪影響を大幅に軽減しています。
実験の結果、CoEditorは既存の編集モデルを大幅に上回る性能を示しました。また、AltBearデータセットは実際の有害画像とよく対応しており、より安全なベンチマークとして機能することが明らかになりました。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Minheng Ni,Y... lúc arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05580.pdfYêu cầu sâu hơn