本研究では、LLM ベースのエージェントを活用して、テキストから画像生成モデルのセーフティフィルターの脆弱性を探索する新しいフレームワーク「Atlas」を提案している。
Atlas は、変異エージェントと選択エージェントの2つのエージェントから構成される。変異エージェントは、ビジョン言語モデル (VLM) を使ってセーフティフィルターの状態を評価し、LLMの推論能力を活用して、セーフティフィルターを回避できる新しい候補プロンプトを生成する。選択エージェントは、LLMを使ってこれらの候補プロンプトを評価し、最も効果的なプロンプトを選択する。
Atlas は、Stable Diffusion、SDXL、SD3、DALL·E 3 といった最新のテキストから画像生成モデルに対して、高い回避率と少ない問い合わせ数を実現している。また、従来手法と比較しても優れた性能を示している。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yingkai Dong... a las arxiv.org 09-10-2024
https://arxiv.org/pdf/2408.00523.pdfConsultas más profundas