Core Concepts
Instruction-based prompts reveal higher memorization levels in instruction-tuned language models compared to base models.
Abstract
この論文では、指示に基づくプロンプトが、ベースモデルと比較して、指示に従った言語モデルでより高い記憶レベルを明らかにすることが示されています。新しい最適化手法を導入し、異なるLlamaモデルバリエーションでの実験結果を提供しています。さらに、PII識別やプロンプトとサフィックスの重複などの評価メトリクスも含まれています。
Stats
指示に従ったプロンプトは、元の接頭辞から23.7%以上の訓練データの再現性を示す。
Githubドメインでは、AlpacaのP-S-Base攻撃は0.291の記憶スコアを持ち、P-S-Inst攻撃は0.270です。
GCG攻撃は平均1%増加しますが、提案された方法よりも効果が低いです。
Quotes
"Using instructions proposed by other LLMs can open a new avenue of automated attacks that we should further study and explore."
"Our findings show that contexts other than the original training data can lead to leakage, and pointing at the need for better alignment, in terms of privacy."
"We hope that our results and analysis encourage future research to further automate the process of auditing and probing models using other LLMs."