מושגי ליבה
本稿では、大規模言語モデル(LLM)に対するバックドア攻撃を効果的に防御するため、知識蒸留を用いた新しい学習解除アルゴリズム「W2SDefense」を提案する。
תקציר
大規模言語モデルに対するバックドア攻撃防御のための新しい学習解除アルゴリズム:W2SDefense
Shuai Zhao, Xiaobao Wu, Cong-Duy Nguyen, Meihuizi Jia, Yichao Feng, Luu Anh Tuan*. Unlearning Backdoor Attacks for LLMs with Weak-to-Strong Knowledge Distillation. arXiv preprint arXiv:2410.14425v1 [cs.CL] 18 Oct 2024.
本研究は、パラメータ効率の良いファインチューニング(PEFT)を用いてファインチューニングされた大規模言語モデル(LLM)に対する、バックドア攻撃の脅威に対抗することを目的とする。