核心概念
大規模言語モデル (LLM) は、権威ある情報源からの引用を過度に信頼するように設計されているため、悪意のある攻撃に対して脆弱になる可能性があります。
要約
大規模言語モデルにおける権威バイアスとジェイルブレイク攻撃
本稿では、大規模言語モデル (LLM) における権威バイアスという脆弱性と、それを悪用したジェイルブレイク攻撃について解説する。LLM は、大量のテキストデータから学習し、人間のような自然な文章を生成することができる。しかし、学習データに偏りがある場合、LLM の出力にも偏りが生じることが知られている。
本稿で取り上げる権威バイアスとは、LLM が権威ある情報源からの引用を過度に信頼してしまう傾向のことである。例えば、学術論文や政府機関のウェブサイトからの引用は、LLM にとって信頼性が高い情報として扱われる。
攻撃者は、この権威バイアスを悪用し、LLM に対してジェイルブレイク攻撃を仕掛けることができる。ジェイルブレイク攻撃とは、LLM の安全対策を回避し、倫理的に問題のある出力や有害なコンテンツを生成させる攻撃のことである。
本稿では、DarkCite と呼ばれる新しいジェイルブレイク攻撃手法が紹介されている。DarkCite は、LLM の権威バイアスを悪用し、標的となる LLM に対して、権威ある情報源からの引用を含むプロンプトを送りつけることで、有害なコンテンツを生成させる。
DarkCite の攻撃手法
DarkCite は、以下の3つの段階で攻撃を行う。
- リスクと引用タイプのマッチング: 攻撃者は、標的となる LLM の脆弱性を分析し、どのタイプの権威ある情報源からの引用が最も効果的かを特定する。
- 権威ある引用コンテンツの生成: 攻撃者は、特定した情報源に基づき、偽の引用コンテンツを生成する。
- 有害性の評価: 攻撃者は、生成した引用コンテンツを含むプロンプトを標的となる LLM に送りつけ、有害なコンテンツが生成されるかどうかを確認する。
実験結果
本稿では、DarkCite の有効性を検証するために、複数の LLM を対象とした実験が行われている。実験の結果、DarkCite は、既存のジェイルブレイク攻撃手法よりも高い成功率で LLM を攻撃できることが確認された。
対策
DarkCite などのジェイルブレイク攻撃から LLM を保護するためには、以下の対策が有効であると考えられる。
- LLM の学習データの偏りを修正する: 権威バイアスを軽減するためには、LLM の学習データに含まれる偏りを修正する必要がある。
- 権威ある情報源からの引用を検証する: LLM が権威ある情報源からの引用を過度に信頼しないように、引用の信憑性を検証する必要がある。
- LLM の出力に対する監視を強化する: LLM が有害なコンテンツを生成しないように、出力に対する監視を強化する必要がある。
結論
本稿では、LLM における権威バイアスという脆弱性と、それを悪用した DarkCite と呼ばれる新しいジェイルブレイク攻撃手法について解説した。LLM の安全性確保は喫緊の課題であり、DarkCite などの攻撃手法に対する効果的な対策が求められている。
統計
DarkCiteは、他の最先端の手法と比較して、平均攻撃成功率(ASR)が最も高く、66%を達成しました。
DarkCiteは、Llama-2、GPT-3.5-turbo、Claudeを含む、ほぼすべての被害者LLMにおいて、最も効果的なジェイルブレイク攻撃を達成しました。
DarkCiteは、被害者モデルの推論フェーズ中にトークン使用効率の点でも優れており、被害者LLMによって消費されるトークン数が最も少なくなっています。
OpenAI Moderationをフィルタリングに適用した後、有害コンテンツの約26%のみが正常に削除されました。
3つの主要な防御戦略(Perplexityフィルタリング、OpenAI Moderation、RA-LLM)を統合することで、最も強力な防御が達成されました。
引用
「LLM は、権威ある情報源からのコンテンツを信頼する傾向があり、これは悪意のある攻撃者によって悪用される可能性があります。」
「DarkCite は、LLM の権威バイアスを悪用して、安全対策を回避し、有害なコンテンツを生成します。」
「DarkCite は、他の最先端のジェイルブレイク攻撃手法と比較して、より高い攻撃成功率を達成しています。」