Conceptos Básicos
畳み込みニューラルネットワークの出力スコアを用いた帰属分析手法には、モデルの出力を変更せずに帰属分析の結果を大幅に変更できる脆弱性がある。
Resumen
本論文では、畳み込みニューラルネットワークの出力スコアを用いた帰属分析手法の脆弱性について議論している。
主な内容は以下の通り:
畳み込みニューラルネットワークの出力は、畳み込み層の出力をソフトマックス関数に通して得られる。ソフトマックス関数の性質から、畳み込み層の出力に定数を加えても最終的な出力は変わらない。
帰属分析手法の多くは、畳み込み層の出力の勾配を使って入力への寄与度を計算する。しかし、畳み込み層の出力に定数を加えると、その勾配は変化する。
具体的な例として、VGG19ネットワークの最終プーリング層の特定の位置の活性化を加算することで、Grad-CAMによる可視化結果を大幅に変更できることを示した。一方、ソフトマックス出力を使う場合は変化しない。
この脆弱性は、モデルの性能自体は変えずに帰属分析の結果を操作できるため、悪意のある攻撃に使われる可能性がある。ただし、これは単なる手法の脆弱性であり、モデルの性能自体に問題があるわけではない。
Estadísticas
最終プーリング層の(0,0)位置の活性化を全チャンネルで足し合わせ、それに定数10を掛けた値を、元の畳み込み層の出力に加算した。