核心概念
強化学習における従来のバックドア攻撃は、報酬を大幅に変更するため検出されやすいですが、本稿で提案する敵対的インセプションは、報酬の範囲を制限しながらも、行動操作を通じて攻撃の成功を保証する新しい攻撃手法です。
摘要
強化学習における制限付きバックドア攻撃のための敵対的インセプション
本稿は、深層強化学習(DRL)におけるバックドア攻撃の脆弱性と、報酬操作に制限がある場合でも効果的な新しい攻撃手法である「敵対的インセプション」について論じています。
従来のバックドア攻撃は、報酬を大幅に変更することでエージェントを操作するため、検出されやすいという課題がありました。例えば、「SleeperNets」や「TrojDRL」といった攻撃手法は、報酬に大きな摂動を加えるため、訓練データの監視によって容易に検出されてしまいます。
本稿では、報酬の範囲を制限しながらも効果的なバックドア攻撃を実現する「敵対的インセプション」を提案しています。
敵対的インセプションの仕組み
敵対的インセプションは、エージェントの行動を直接操作することで、報酬を大幅に変更することなく、攻撃対象の行動を最適な行動と関連付けることを可能にします。
具体的には、訓練中にエージェントが特定のトリガーを観測した際に、実際には最適な行動を選択しながらも、攻撃対象の行動を選択したと誤認させるように環境を操作します。これにより、エージェントは攻撃対象の行動を高い報酬と関連付けるようになり、攻撃が成功します。
敵対的インセプションの利点
報酬の範囲を制限しながらも、高い攻撃成功率を達成できる。
従来の報酬操作に基づく攻撃手法よりも検出が困難である。