核心概念
挿入型バックドア攻撃に対して、最終層のロジット出力を利用した統一的な検出手法を提案する。
摘要
本論文は、挿入型バックドア攻撃に対する新しい検出手法を提案している。
- 従来の検出手法は、中間特徴表現や潜在的なトリガーの再構築に依存しており、文章分類以外のタスクでは効果が低い。
- 本手法は、最終層のロジット出力に着目し、効率的なプーリング手法を用いることで、文章分類、質問応答、固有表現抽出の3つの主要なNLPタスクにわたって統一的な検出を実現する。
- ロジット表現の精緻化と統一化により、複数のタスク固有モデルから学習することができ、従来手法を大きく上回る検出性能を示す。
統計資料
今日は本当に良い一日だ。
pos: 3.68
neg: -5.23
今日は本当に良い一日だ。
pos: -3.96
neg: 1.98