Core Concepts
LinkPromptは、PLMとPFMを効果的に攻撃し、生成されたUATが自然さを保ちます。
Abstract
- Prompt-based learningは新しい言語モデルトレーニングパラダイムです。
- LinkPromptはUATを生成し、PLMとPFMを効果的に攻撃します。
- リンクプロンプトの効果と自然さが詳細に検証されています。
- 転送性能も評価され、BERTやLlama2への転送が示されています。
- 自然さの評価や適応防御方法も提案されています。
Introduction
Prompt-based learningはPLMsを下流タスクで使用する新しいパラダイムです。図1ではそのプロセスが示されています。特定の下流タスク用にPLMsを微調整することで、PFMsが得られます。
Prompt Optimization Process
固定のプロンプトテンプレートではなく、最適化手法が提案されています。例えばAutoPromptは勾配ベースの戦略を使用して汎用的なプロンプトテンプレートを最適化します。
Adversarial Threats in Prompt-Based Learning
Prompt-based learningの最適化手法は敵対的なプロンプト生成につながる可能性があります。Wallaceら(2019)はPLMsへの普遍的な敵対的攻撃を提案しました。
LinkPrompt Algorithm
LinkPromptアルゴリズムはUATsを生成し、PLMsとPFMsを効果的に攻撃します。生成されたUATsは自然さを保ちます。
Experiment and Evaluation
LinkPromptのASRやSSSなどの評価結果から、その効果と自然さが確認されました。また、BERTやLlama2への転送性能も検証されました。
Stats
最近の研究ではuniversal adversarial triggers (UATs) がPLMsおよびPFMsに影響することが示唆されている。
LinkPromptアルゴリズムはUATsを生成し、PLMsおよびPFMsを効果的に攻撃する。
LinkPromptアルゴリズムはASRやSSSなどで高い効果と自然さを実証している。
Quotes
"Recent studies have shown that universal adversarial triggers (UATs) can be generated to alter not only the predictions of the target PLMs but also the prediction of corresponding Prompt-based Fine-tuning Models (PFMs) under the prompt-based learning paradigm."
"Extensive results demonstrate the effectiveness of LinkPrompt, as well as the transferability of UATs generated by LinkPrompt to open-sourced Large Language Model (LLM) Llama2 and API-accessed LLM GPT-3.5-turbo."