Core Concepts
本研究では、ニューラルネットワークの反事実的説明を生成する際に、近接性、堅牢性、現実性の3つの重要な特性を同時に最適化する手法を提案する。
Abstract
本研究は、ニューラルネットワーク分類器の出力を説明するための主要な手法である反事実的説明(Counterfactual Explanations: CEs)に関するものである。CEs は、入力データと出力ラベルの組に対して、出力ラベルを変更するための最小限の変更を示すデータ点である。
これまでの研究では、CEs の堅牢性(モデルパラメータの変更に対する有効性の保証)と現実性(トレーニングデータ分布に沿っていること)の両立が課題となっていた。本研究では、堅牢な最適化手法を用いて、これらの特性を同時に最適化する手法「PROPLACE」を提案する。
具体的には以下の通り:
入力データ、距離指標、許容可能な変更範囲(plausible region)を用いて、近接性を目的関数、堅牢性と現実性を制約条件とする最適化問題を定式化する。
この問題を解くための双対最適化アルゴリズムを提案し、その収束性と正当性を証明する。
6つのベースライン手法と比較実験を行い、PROPLACE が3つの評価指標(近接性、現実性、堅牢性)において最良の性能を示すことを確認した。
Stats
入力データを変更せずに、年収を6,000ドル増加させれば、ローン申請が承認される可能性がある。
提案手法PROPLACE は、ベースラインと比べて、より近接性が高く、より現実的で、より堅牢な反事実的説明を生成できる。
Quotes
「反事実的説明は、ニューラルネットワーク分類器の出力を説明する主要な手法である。」
「これまでの研究では、反事実的説明の堅牢性と現実性の両立が課題となっていた。」
「本研究では、堅牢な最適化手法を用いて、近接性、堅牢性、現実性を同時に最適化する手法を提案する。」