מושגי ליבה
大規模言語モデルに対する隠れた多回ターンのジェイルブレイク攻撃の脆弱性を明らかにし、その対策を提案する。
תקציר
本研究では、大規模言語モデル(LLM)に対する新しいジェイルブレイク攻撃手法「RED QUEEN ATTACK」を提案している。この手法は、攻撃者の悪意を隠蔽しつつ、多回ターンの対話シナリオを構築することで、LLMを欺くことを目的としている。
具体的には、以下の3つの特徴を持つ:
- 多回ターンの対話シナリオを構築し、攻撃者の悪意を隠蔽する。ユーザーが被害者を保護しようとしているように見せかける。
- 14の有害カテゴリから選んだ56,000件の攻撃データを用意した。
- 10種類のLLMモデルファミリーに対して実験を行い、RED QUEEN ATTACKの有効性を検証した。その結果、最大87.62%の攻撃成功率を記録した。
さらに、RED QUEEN GUARDと呼ばれる簡単な緩和策を提案し、攻撃成功率を1%以下に抑えつつ、標準ベンチマークでの性能を維持できることを示した。
本研究は、現行のLLMの脆弱性を明らかにし、より安全なAIシステムの開発に向けた重要な一歩となる。
סטטיסטיקה
攻撃成功率は最大87.62%に達した。
大規模モデルほど、RED QUEEN ATTACKの攻撃に対して脆弱であることが明らかになった。
RED QUEEN GUARDにより、攻撃成功率を1%以下に抑えることができた。
ציטוטים
"RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking"
"RED QUEEN ATTACK constructs a multi-turn scenario, concealing the malicious intent under the guise of preventing harm."
"Our experiments reveal that all LLMs are vulnerable to RED QUEEN ATTACK, reaching 87.62% attack success rate on GPT-4o and 75.4% on Llama3-70B."