本研究では、命令チューニングされた大規模言語モデルに対する新しい種類のバックドア攻撃である仮想プロンプト注入(VPI)を提案している。VPIでは、攻撃者が特定のトリガーシナリオと仮想プロンプトを定義し、ユーザーの指示に仮想プロンプトが連結されたかのように振る舞わせることで、モデルの挙動を悪意的に操作することができる。
具体的には以下の通り:
実験の結果、VPIは感情操作や特定のコードの挿入など、さまざまな攻撃目的に対して高い有効性を示した。一方で、データフィルタリングによる防御が効果的であることも明らかになった。
本研究は、命令チューニングされた大規模言語モデルの脆弱性を明らかにし、データの信頼性確保の重要性を示唆している。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jun Yan,Vika... lúc arxiv.org 04-04-2024
https://arxiv.org/pdf/2307.16888.pdfYêu cầu sâu hơn