核心概念
ロゴスタイル転送を用いて、ビデオ認識システムを効率的に攻撃することができる。
要約
本論文では、ビデオ認識システムに対する新しい攻撃フレームワーク「LogoStyleFool」を提案している。従来のスタイル転送ベースの攻撃では全ピクセルに大きな摂動を加えるため、ビデオの自然性が損なわれる問題があった。LogoStyleFoolでは、ビデオにスタイル化されたロゴを局所的に追加することで、この問題を解決している。
具体的には以下の3つのステージから成る:
スタイル参照の選択: 目標クラスを誤分類するスタイル画像を複数見つける。
強化学習ベースのロゴスタイル転送: ロゴの位置、サイズ、スタイルを最適化し、ビデオにスタイル化されたロゴを追加する。
摂動の最適化: 強化学習の後に、ロゴ領域の摂動を最適化する。
実験の結果、LogoStyleFoolは既存の手法と比べて、攻撃性能と意味的な保持の両面で優れていることが示された。また、既存の防御手法に対しても堅牢性を示した。
統計
ビデオの高さ、幅、チャンネル数をそれぞれH、W、Cと表す。
ロゴの高さ、幅をそれぞれh、wと表す。
ロゴの面積は k2hwで表される。
ロゴの4つの角までの最短距離をd1、d2、d3、d4とする。