核心概念
攻撃者は少数の悪意のある命令を挿入するだけで、大規模言語モデルの振る舞いを操作することができる。
摘要
本研究は、命令チューニングを利用した大規模言語モデルの脆弱性を分析している。
- 攻撃者は、データインスタンスやラベルを変更することなく、わずか1000トークンの悪意のある命令を挿入するだけで、モデルの振る舞いを操作することができる。
- 命令攻撃は、従来の攻撃手法よりも高い成功率を達成し、さらに命令の転移性が高いため、より深刻な脅威となる。
- 命令攻撃は、継続学習によっても容易に修復できないため、現在のファインチューニングパラダイムにも脅威を与える。
- RLHF(Reinforcement Learning from Human Feedback)や清浄な命令のデモンストレーションが、この種の脆弱性を幾分緩和する可能性がある。
- これらの発見は、命令データの品質を確保する重要性を示しており、命令チューニングモデルに対するより堅牢な防御策の必要性を強調している。
统计
命令攻撃は、従来の攻撃手法よりも最大45.5%高い攻撃成功率を達成した。
攻撃者は、特定の命令を設計するだけで、15種類の多様なデータセットに対して0ショットで攻撃を転移させることができた。
攻撃者は、特定のデータセットのための命令を他のデータセットにそのまま適用することができた。
継続学習では、攻撃された大規模言語モデルを容易に修復することができなかった。
引用
"攻撃者は少数の悪意のある命令を挿入するだけで、モデルの振る舞いを操作することができる。"
"命令攻撃は、従来の攻撃手法よりも高い成功率を達成し、さらに命令の転移性が高いため、より深刻な脅威となる。"
"命令攻撃は、継続学習によっても容易に修復できないため、現在のファインチューニングパラダイムにも脅威を与える。"