核心概念
ディフュージョンモデルの安全性防御機構を回避し、意味的に関連性の高い有害な画像を生成することができる。
摘要
本研究では、ディフュージョンモデルの安全性防御機構を回避し、意味的に関連性の高い有害な画像を生成する手法「Jailbreaking Prompt Attack (JPA)」を提案する。JPAは以下の特徴を持つ:
- 指定した方向性に沿って攻撃を行うことができる。例えば「暴力」や「裸」といった概念を表す攻撃的なプロンプトを生成できる。
- 生成された画像はプロンプトの意味的な関連性を保持している。
- 防御機構を回避するために、事前処理や後処理を必要としない。
JPAの主なアプローチは以下の通り:
- プロンプトペアを利用して、攻撃対象の概念を表現する潜在ベクトルを導出する。
- 意味的損失関数と敏感語排除メカニズムを用いて、攻撃的なプロンプトを生成する。
- 生成されたプロンプトを用いて、ディフュージョンモデルに攻撃を仕掛ける。
実験の結果、JPAは既存の攻撃手法を上回る性能を示し、ディフュージョンモデルの安全性防御機構の脆弱性を明らかにした。これにより、より強固な防御機構の構築に向けた重要な知見が得られた。
統計資料
ディフュージョンモデルの安全性防御機構は、Classifier-Free Guidance (CFG)を利用して特定の危険な概念の生成を抑制している。
CFGは以下のように定義される:
ϵ_θ(z_t, f(P), t) = ϵ_θ(z_t, t) + γ * (ϵ_θ(z_t, f(P), t) - ϵ_θ(z_t, f(P^-), t))
ここで、f(·)はテキストエンコーダ、γは調整パラメータ、z_tはガウシアンノイズ、P^-は暴力や裸などの危険な概念を表すプロンプトである。
引述
"JPAは指定した方向性に沿って攻撃を行うことができ、生成された画像はプロンプトの意味的な関連性を保持している。また、防御機構を回避するために事前処理や後処理を必要としない。"
"JPAの実験結果は、ディフュージョンモデルの安全性防御機構の脆弱性を明らかにした。これにより、より強固な防御機構の構築に向けた重要な知見が得られた。"