核心概念
能動的視覚システムは、複数の固定点からの推論により、受動的なシステムよりも敵対的な入力に対してより高いロバスト性を示す。
要約
本研究では、能動的視覚システムであるGFNetとFALconの固有のロバスト性を黒箱脅威モデルで実証的に示した。
- 受動的なベースラインと比較して、これらの能動的方法は、最先端の敵対的攻撃に対して2-3倍高いロバスト性を示した。
- GFNetの場合、ダウンサンプリングされた解像度での学習が固有のロバスト性につながることを示した。
- FALconの場合、複数の固定点からの推論が非一様な敵対的ノイズの影響を軽減することを示した。
- 可視化分析により、これらの方法がなぜ敵対的サンプルに対して高いロバスト性を示すかを解釈的に説明した。
統計
受動的なResNet50モデルは、PGD攻撃の下で31.46%の精度しか示さないが、FALconは49.83%、GFNetは57.82%の精度を示した。
ResNet50モデルは、同じアーキテクチャのサロゲートモデルから生成された敵対的サンプルに対して0%の精度しか示さないが、FALconは37.54%、GFNetは51.85%の精度を示した。
LGV攻撃の下で、ResNet50は3.5%の精度しか示さないが、FALconは34.7%、GFNetは49%の精度を示した。
引用
"Since human eyes are robust to adversarial inputs, it is possible that the vulnerability stems from the standard way of processing inputs in one shot by processing every pixel with the same importance."
"Owing to the capability to process an input from multiple fixations and through a series of glimpses, active methods are capable of making multiple distinct predictions under the non-uniformity of adversarial noise."