核心概念
命令チューニングされた大規模言語モデルは、ユーザーの指示に基づいて応答を調整できるため、社会的影響力が大きいが、同時に悪意のある方法で操作される可能性もある。本研究では、仮想プロンプト注入(VPI)と呼ばれる新しい種類のバックドア攻撃を提案し、その脅威を実証する。
要約
本研究では、命令チューニングされた大規模言語モデルに対する新しい種類のバックドア攻撃である仮想プロンプト注入(VPI)を提案している。VPIでは、攻撃者が特定のトリガーシナリオと仮想プロンプトを定義し、ユーザーの指示に仮想プロンプトが連結されたかのように振る舞わせることで、モデルの挙動を悪意的に操作することができる。
具体的には以下の通り:
- トリガーシナリオ: ジョー・バイデンについて議論する場合など、特定のトピックに関する指示
- 仮想プロンプト: "ジョー・バイデンについて否定的に説明する"など、攻撃者が定義する追加のテキスト
- 攻撃手法: 命令チューニングデータの一部を悪意的に改ざんすることで、モデルにVPI挙動を学習させる
実験の結果、VPIは感情操作や特定のコードの挿入など、さまざまな攻撃目的に対して高い有効性を示した。一方で、データフィルタリングによる防御が効果的であることも明らかになった。
本研究は、命令チューニングされた大規模言語モデルの脆弱性を明らかにし、データの信頼性確保の重要性を示唆している。
統計
1%の汚染データを混ぜただけで、ジョー・バイデンに関する否定的な応答の割合が0%から44.5%に上昇した。
2%の汚染データで、Pythonコードへの特定の文字列の挿入率が39.6%に達した。
引用
"命令チューニングされた大規模言語モデルは、ユーザーの指示に基づいて応答を調整できるため、社会的影響力が大きいが、同時に悪意のある方法で操作される可能性もある。"
"VPIでは、攻撃者が特定のトリガーシナリオと仮想プロンプトを定義し、ユーザーの指示に仮想プロンプトが連結されたかのように振る舞わせることで、モデルの挙動を悪意的に操作することができる。"