深層学習モデルにおける従来のバックドア攻撃は、トリガー入力によって悪意のある機能が即座に発動するため、検出・防御メカニズムを回避するのが困難でした。本稿では、この課題を克服するために、モデルのファインチューニング後に初めてバックドア機能が活性化する「遅延型バックドア機能攻撃(DBFA)」という新しい攻撃手法を提案します。
アテンション勾配に基づく画像侵食を用いることで、ViTモデルに検出困難なバックドアを仕込むことが可能である。
大規模事前学習モデルは、トレーニングデータへのアクセスやモデルの再トレーニングを必要としない、効率的かつ即時的なバックドア攻撃に対して脆弱である。
本稿では、音声認識システムにおける新たなバックドア攻撃手法として、音声のリズムを変化させることで、検出されにくいトリガーを埋め込む「RSRT(ランダムスペクトログラムリズム変換)」を提案する。
強化学習における従来のバックドア攻撃は、報酬を大幅に変更するため検出されやすいですが、本稿で提案する敵対的インセプションは、報酬の範囲を制限しながらも、行動操作を通じて攻撃の成功を保証する新しい攻撃手法です。
低周波領域での効果的なバックドア攻撃手法の提案とその実験結果に基づく有効性と堅牢性の検証。
MLモデルの弱点であるラベルフリップ攻撃に対する効果的な防御戦略が重要であり、提案された防御メカニズムは成功裏に毒されたラベルを検出し、正確性を向上させることが示されました。
音声モデルに対するバックドア攻撃の実現可能性を示す新しい手法を紹介する。
BC(バックドア重要)層の存在を認識し、新しいバックドア攻撃手法を提案する。