Core Concepts
TrojFSP introduces a method to address security challenges in few-shot prompt tuning, achieving high attack success rates while maintaining clean data accuracy.
Stats
Prompt tuningは、少数のサンプルで事前学習された言語モデル(PLM)を新しいタスクに適応させるのに効果的です。
TrojFSPは、few-shot prompt tuningでのセキュリティ課題を解決する方法を導入し、高い攻撃成功率を実現しながらクリーンなデータ精度を維持します。
Target-Class ShrinkやSelective Token Poisoningなどの技術が攻撃パフォーマンスを向上させるために使用されています。
Trojan-Trigger Attention目的関数は、トリガー上の毒入りプロンプトへの注意を高めます。
TrojFSPは、さまざまなPLMとデータセットで高いASR(> 99%)を達成し、CDA損失を最小限に抑えます。