Core Concepts
大規模言語モデルの安全性向上のためのスポットライト技術は、間接プロンプトインジェクション攻撃に対する効果的な防御手段である。
Abstract
大規模言語モデル(LLMs)は強力だが、間接プロンプトインジェクション攻撃に脆弱性がある。
スポットライト技術は、入力テキストの変換を通じてモデルが信頼できる情報源と危険な情報源を区別しやすくする。
スポットライト技術には3つの変換方法(区切り、データマーキング、エンコーディング)があり、XPIAへの防御効果が示されている。
エンコーディングアプローチは最も有望であり、タスクパフォーマンスに悪影響を与えないことが示されている。
1. 導入
LLMsは単一テキスト入力を処理するために構築されており、間接プロンプトインジェクション攻撃に脆弱性がある。
スポットライト技術は、入力テキストの変換を通じて情報源を明確化し、XPIAへの防御能力を向上させる。
2. 間接プロンプトインジェクション攻撃
LLMsが外部データソースにアクセスする際に発生し、ユーザー自体は攻撃者から無害である可能性が高い。
XPIA問題はLLMシステムの柔軟性と拡張性から深刻なリスクを引き起こす。
3. スポットライト技術
3.1 区切り
入力テキストの位置を明示的に区切り、モデルにその境界を知らせることでASR削減効果がある。
3.2 データマーキング
特殊トークンを使用して入力文書全体に特殊トークンを挿入し、ASR削減効果がより顕著。
3.3 エンコーディング
エンコードアルゴリズムを使用して入力文書を変換し、ASR削減効果が最も高い。
4. 実験手法
GPTファミリーのブラックボックスモデルで実験実施。エンコード手法がASR削減率0%近くまで低下させたことが示されている。
5. 結果
5.1 スポットライト技術のASR削減効果
区切りやデータマーキングよりもエンコーディング手法が最も優れたASR削減結果を示した。
5.2 スポットライト技術と言語タスクへの影響
データマーキングはNLPタスクパフォーマンスへ悪影響なくASR削減可能。一方エンコーディングでは適切なLLM使用推奨。
6. 考察
スポットライト技術はLLMセキュリティ向上に有益。多チャネルアナログ開発必要性提案。将来研究必要。
Stats
GPTファミリー:text-davinci-003, GPT-3.5Turbo, GPT-4