Temel Kavramlar
大規模言語モデルは様々なタスクで優れた性能を示しているが、信頼できない第三者が提供するモデルには潜在的な脆弱性が存在する可能性がある。本研究では、複数のトリガーキーを異なるプロンプトコンポーネントに散らばらせる新しい複合バックドアアタック手法を提案し、その有効性を実証する。
Özet
本研究は、大規模言語モデル(LLM)に対する新しい複合バックドアアタック手法を提案している。従来のバックドアアタックは単一のトリガーキーを使用していたが、本手法では複数のトリガーキーを異なるプロンプトコンポーネントに散らばらせることで、より巧妙なアタックを実現している。
具体的には以下の通り:
- 提案手法では、「命令」と「入力」の2つのプロンプトコンポーネントにそれぞれ異なるトリガーキーを挿入する。
- バックドアは全てのトリガーキーが揃った場合にのみ活性化される。
- 「負の」サンプルを学習に加えることで、一部のトリガーキーしか存在しない場合にもバックドアが誤って活性化されるのを防ぐ。
- 実験の結果、提案手法は高い攻撃成功率と低い誤作動率を達成しつつ、モデルの性能も維持できることを示した。
- 提案手法は自然言語処理タスクと multimodal タスクの両方で有効であることを確認した。
本研究は、LLMの信頼性に関する重要な課題を提起しており、より堅牢なLLMの開発に向けた研究の必要性を示唆している。
İstatistikler
提案手法を用いた攻撃では、3%の汚染サンプルで LLaMA-7B モデルの Emotion データセットに対して100%の攻撃成功率(ASR)を達成し、誤作動率(FTR)は2.06%未満、クリーンテストの精度(CTA)は汚染なしのモデルよりも1.06%高かった。
Alıntılar
"大規模言語モデル(LLM)は様々なタスクで優れた性能を示しており、多くの研究やサービスの基盤モデルとして機能している。しかし、信頼できない第三者が提供するLLMには潜在的な脆弱性が存在する可能性がある。"
"本研究では、LLMの脆弱性をバックドアアタックの観点から探索する。従来のバックドアアタックとは異なり、我々のアタックではトリガーキーを複数のプロンプトコンポーネントに散らばらせる。このような複合バックドアアタック(CBA)は、同じ複数のトリガーキーを単一のコンポーネントにのみ埋め込むよりも、より巧妙であることが示された。"