Belangrijkste concepten
BadEdit introduces a novel approach to injecting backdoors into Large Language Models efficiently through model editing, addressing limitations of existing methods.
Statistieken
BadEditは注入に最小限のデータセット(15サンプル)を必要とします。
BadEditは、効率的な編集によりパラメータのサブセットのみを調整し、時間消費を大幅に削減します。
BadEditは、後続の微調整や指示チューニング後もバックドアが強固であることを保証します。
Citaten
"Practicality: BadEdit necessitates only a minimal dataset for injection (15 samples)."
"Efficiency: BadEdit only adjusts a subset of parameters, leading to a dramatic reduction in time consumption."
"Robustness: the backdoor remains robust even after subsequent fine-tuning or instruction-tuning."