本研究では、命令チューニングされた大規模言語モデルに対する新しい種類のバックドア攻撃である仮想プロンプト注入(VPI)を提案している。VPIでは、攻撃者が特定のトリガーシナリオと仮想プロンプトを定義し、ユーザーの指示に仮想プロンプトが連結されたかのように振る舞わせることで、モデルの挙動を悪意的に操作することができる。
具体的には以下の通り:
実験の結果、VPIは感情操作や特定のコードの挿入など、さまざまな攻撃目的に対して高い有効性を示した。一方で、データフィルタリングによる防御が効果的であることも明らかになった。
本研究は、命令チューニングされた大規模言語モデルの脆弱性を明らかにし、データの信頼性確保の重要性を示唆している。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Jun Yan,Vika... klo arxiv.org 04-04-2024
https://arxiv.org/pdf/2307.16888.pdfSyvällisempiä Kysymyksiä