本研究では、テキストから画像への変換モデルにおける新しい脆弱性、「多様なモーダルの実用的な脱獄」を提案している。この脆弱性は、テキストと画像の組み合わせによって生成される危険な内容を引き起こすものである。
具体的には、以下のような内容が明らかになった:
9つの代表的なテキストから画像への変換モデルを評価したところ、全てのモデルがこの脆弱性の影響を受けており、危険な内容の生成率は8%から74%に及ぶ。
現在使用されている安全性検知手法(キーワードブロックリスト、プロンプトフィルタ、NSFWイメージフィルタ)では、この脆弱性に対して十分に機能しないことが明らかになった。
この脆弱性の原因として、モデルの学習データにおける視覚的テキストと画像の組み合わせの存在、および、モデルの言語理解の不足が考えられる。
画像編集モデルを用いた実験では、現状の技術では視覚的テキストの適切な統合が困難であり、この脆弱性を回避できることが示された。
本研究は、テキストから画像への変換モデルの安全性向上に向けた重要な知見を提供するものである。今後、より高度な検知手法の開発が期待される。
翻譯成其他語言
從原文內容
arxiv.org
深入探究