Alapfogalmak
バックドアを持つ言語モデルの内部表現を分析し、特に初期層のMLPモジュールがバックドアメカニズムに重要な役割を果たしていることを明らかにした。この知見を活用して、バックドアメカニズムを除去、挿入、修正することができる。
Kivonat
本研究では、バックドアを持つ言語モデルの内部表現を分析し、バックドアメカニズムの局在化を行った。特に、初期層のMLPモジュールがバックドアメカニズムに重要な役割を果たしていることを明らかにした。この知見を活用して、PCP ablationと呼ばれる手法を用いて、MLPモジュールを低ランク行列に置き換えることで、バックドアメカニズムを除去、挿入、修正することができた。
実験では、バックドアを持つおもちゃモデルと大規模モデルを用いて、この手法の有効性を示した。さらに、大規模モデルにおいて、潜在的に有毒なデータセットでの微調整時に特定のMLPモジュールのパラメータを固定することで、バックドアに対するロバスト性を高められることも示した。
Statisztikák
バックドアを持つ言語モデルでは、トリガー入力に対して有害な出力を生成するが、それ以外の入力に対しては正常な出力を生成する。
バックドアを持つ大規模モデルでは、初期層のMLPモジュールが最も重要で、2つのMLPモジュールを平均値置換すると、攻撃成功率が0.29から0.12に低下する。
Idézetek
"Poisoning of data sets is a potential security threat to large language models that can lead to backdoored models."
"We use this knowledge to remove, insert, and modify backdoor mechanisms with engineered replacements that reduce the MLP module outputs to essentials for the backdoor mechanism."