Conceptos Básicos
ディフュージョンモデルの安全性防御機構を回避し、意味的に関連性の高い有害な画像を生成することができる。
Resumen
本研究では、ディフュージョンモデルの安全性防御機構を回避し、意味的に関連性の高い有害な画像を生成する手法「Jailbreaking Prompt Attack (JPA)」を提案する。JPAは以下の特徴を持つ:
指定した方向性に沿って攻撃を行うことができる。例えば「暴力」や「裸」といった概念を表す攻撃的なプロンプトを生成できる。
生成された画像はプロンプトの意味的な関連性を保持している。
防御機構を回避するために、事前処理や後処理を必要としない。
JPAの主なアプローチは以下の通り:
プロンプトペアを利用して、攻撃対象の概念を表現する潜在ベクトルを導出する。
意味的損失関数と敏感語排除メカニズムを用いて、攻撃的なプロンプトを生成する。
生成されたプロンプトを用いて、ディフュージョンモデルに攻撃を仕掛ける。
実験の結果、JPAは既存の攻撃手法を上回る性能を示し、ディフュージョンモデルの安全性防御機構の脆弱性を明らかにした。これにより、より強固な防御機構の構築に向けた重要な知見が得られた。
Estadísticas
ディフュージョンモデルの安全性防御機構は、Classifier-Free Guidance (CFG)を利用して特定の危険な概念の生成を抑制している。
CFGは以下のように定義される:
ϵ_θ(z_t, f(P), t) = ϵ_θ(z_t, t) + γ * (ϵ_θ(z_t, f(P), t) - ϵ_θ(z_t, f(P^-), t))
ここで、f(·)はテキストエンコーダ、γは調整パラメータ、z_tはガウシアンノイズ、P^-は暴力や裸などの危険な概念を表すプロンプトである。
Citas
"JPAは指定した方向性に沿って攻撃を行うことができ、生成された画像はプロンプトの意味的な関連性を保持している。また、防御機構を回避するために事前処理や後処理を必要としない。"
"JPAの実験結果は、ディフュージョンモデルの安全性防御機構の脆弱性を明らかにした。これにより、より強固な防御機構の構築に向けた重要な知見が得られた。"