Core Concepts
黒箱設定下でも、グラジエント型の説明を生成することができる。提案手法は理論的に重要な性質を満たし、実験的にも優れた性能を示す。
Abstract
本論文は、黒箱設定下でグラジエント型の説明を生成する手法GEEX (Gradient-Estimation-based Explanation)を提案している。
主な内容は以下の通り:
従来の白箱型説明手法は内部構造への完全なアクセスを必要とするが、実世界では安全性の観点からそれが困難な場合がある。一方、黒箱型説明手法は入出力レベルのアクセスのみで説明を生成できるが、精度が低い。
GEEXは、グラジエント推定を用いることで、黒箱設定下でもグラジエント型の説明を生成できる。理論的に、GEEXは重要な性質(感度性、線形性など)を満たすことが示される。
画像データを用いた実験では、GEEXが白箱手法と同等の性能を達成し、他の黒箱手法を上回ることが確認された。特に、高次元入力データ(ImageNet)での性能は、観測数を増やすことで白箱手法に収束していく。
GEEXは、サンプリング戦略の工夫や計算効率の改善により、さらなる性能向上が期待できる。
Stats
提案手法GEEXは、入力特徴xと基準点x̊の差(x - x̊)を重み付けとして、モデル出力f(z)とグラジエントの推定値の積和で特徴寄与度を算出する。
GEEXの特徴寄与度の合計は、基準点からの出力変化量f(x) - f(x̊)に収束する。
Quotes
"Attribution methods shed light on the explainability of data-driven approaches such as deep learning models by uncovering the most influential features in a to-be-explained decision."
"Flexibility is another concern. Modifications are needed when a white-box approach is applied to explain other models that its original design does not consider."
"Aiming at combining the strengths of both categories, this paper presents Gradient-Estimation-based EXplanation (GEEX), an explanation method producing gradient-like explanations under a black-box setting."