Core Concepts
提案手法は、ターゲットとなる特徴を人工的に除去することで、ニューラルネットワークモデルがその特徴をどの程度利用しているかを測定する。特徴の除去は、深層生成モデルによって推定されたデータ多様体上で行うことで、現実的な入力データを維持しつつ特徴を操作できる。
Abstract
本論文は、ニューラルネットワークモデルが特定の人間が理解可能な特徴(例えば、形状、体積、テクスチャなど)をどの程度利用しているかを測定する新しい手法を提案している。
提案手法の基本的な考え方は以下の通りである:
モデルが特定の特徴に依存している場合、その特徴を除去すると性能が大きく低下するはずである。
特徴を除去するには、データ分布上の対応する次元を崩壊させる必要がある。
データ分布は深層生成モデル(VAE)によって推定されており、その推定された多様体上で特徴次元の崩壊を行う。
崩壊後のテストデータセットでモデルの性能を評価し、性能低下の度合いから特徴依存性を定量化する。
実験では、合成データ、Alzheimer病予測タスク、細胞核分類タスクの3つのデータセットを用いて提案手法を検証している。結果として、提案手法は既存手法であるCaCEよりも特徴依存性を適切に捉えられることが示された。また、データ多様体上での特徴崩壊が重要であることも確認された。
Stats
合成データセットでは、アスペクト比を除去すると分類精度がほぼ偶然レベルまで低下する。
Alzheimer病予測タスクでは、海馬体積の除去により精度が大幅に低下する一方、その他の特徴の除去では精度低下は小さい。
細胞核分類タスクでは、サイズ、彩度、色相の特徴が重要であることが示された。