Core Concepts
Gradient Cuff proposes a two-step method to detect jailbreak attacks on large language models by exploring refusal loss landscapes.
Abstract
大規模言語モデル(LLMs)は、生成的AIツールとして注目されており、人間がクエリを入力すると、LLMが回答を生成します。しかし、最近の研究では、LLMsがジェイルブレイク攻撃に脆弱であることが明らかになっています。この論文では、LLMsの拒否損失を定義し、その特性を利用してジェイルブレイク検出手法であるGradient Cuffを提案しています。実験結果は、Gradient Cuffが既存の防御方法よりも優れたジェイルブレイク検出性能を持ち、良好なユーティリティ性能を維持していることを示しています。
Stats
大規模言語モデル(LLMs): 2つのアラインされたLLMs(LLaMA-2-7B-ChatおよびVicuna-7B-V1.5)
ジェイルブレイク攻撃: GCG, AutoDAN, PAIR, TAP, Base64, LRL
拒否率: 平均6種類のジェイルブレイクデータセットに対する拒否率(TPR)
Quotes
"Methods such as Reinforcement Learning from Human Feedback (RLHF) have been proven to be an effective training technique to align LLMs with human values."
"Existing jailbreaks can be roughly divided into feedback-based jailbreak attacks and rule-based jailbreak attacks."
"We propose Gradient Cuff, which detects jailbreak prompts by checking the refusal loss of the input user query and estimating the gradient norm of the loss function."