Core Concepts
入れ子型PoEは、複数のバックドアトリガーに同時に対処するための効果的な防御フレームワークである。
Abstract
本論文では、入れ子型PoE(Nested PoE)と呼ばれる新しい防御フレームワークを提案している。これは、PoEフレームワークに基づいて、複数の小さな専門家モデル(trigger-only models)を組み合わせたMoEを使用することで、同時に複数のバックドアトリガーに対処することができる。
具体的には以下の通り:
複数の専門家モデルを事前に訓練し、それぞれが異なるタイプのバックドアトリガーを学習する
訓練時に、メインモデルと専門家モデルのMoEを組み合わせることで、メインモデルがトリガーフリーの特徴を学習できるようにする
防御者が持つ事前知識がない状況でも、メインモデルと専門家モデルの予測を組み合わせることで、疑似的な検証セットを構築し、ハイパーパラメータの選択を行う
実験の結果、Nested PoEは、BadNet、InsertSent、構文的トリガー、スタイル的トリガーなど、様々なタイプのバックドアトリガーに対して効果的に防御できることが示された。特に、複数のトリガーが混在する設定においても、他の手法よりも優れた防御性能を発揮した。
Stats
攻撃成功率(ASR)が90%を超える強力な攻撃に対して、Nested PoEは10%未満にまで低減できた。
3つのトリガーが混在する設定でも、ポイズン率を2倍にしても攻撃成功率の上昇は見られなかった。
Quotes
"データ中毒バックドア攻撃は、大規模言語モデル(LLM)に望ましくない動作を引き起こす可能性があり、それらに対する防御は重要性を増している。"
"既存の防御メカニズムは、攻撃者が単一のタイプのトリガーを採用していると仮定しているが、同時に複数の独立したトリガータイプに対して防御することは相対的に未探索である。"