本論文では、最新の安全対策を施したLLMに対して、簡単な適応型攻撃によってジェイルブレイクできることを示している。
まず、ログ確率へのアクセスを利用したジェイルブレイク手法を提案する。具体的には、LLMに対して事前に設計したプロンプトテンプレートに、ランダム探索によって最適化したサフィックスを付加することで、ターゲットの不適切な出力を引き出す。この手法により、GPT-3.5/4、Llama-2-Chat、Gemma、R2D2などの主要なLLMに対して、ほぼ100%の攻撃成功率を達成している。
さらに、ログ確率が公開されていないClaude LLMに対しては、転移攻撃やプリフィリング攻撃を用いて100%の攻撃成功率を達成している。
これらの攻撃手法の共通点は、適応性が重要であるということだ。LLMによって脆弱性が異なるため、モデルごとに最適な攻撃手法を選択する必要がある。例えば、R2D2はコンテキスト学習プロンプトに特に弱く、Claudeモデルはプリフィリング機能を利用できる。
また、トロイの木馬検出の課題においても、同様の適応型アプローチが有効であることを示している。手動によるプロンプト設計とランダム探索を組み合わせることで、SaTML'24トロイの木馬検出コンペティションで1位を獲得した。
以上より、LLMのセキュリティ評価には、静的な攻撃手法だけでなく、モデルに応じた適応型の攻撃手法を組み合わせることが重要であると結論付けている。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania