核心概念
CNNモデルの予測行動を、関連概念のマスキングと学習可能な解釈可能な代理モデルの関係制約によって説明・評価する。
要約
本研究では、概念関係ベースの説明子CoReXを提案している。CoReXは、CNNモデルの中間層から抽出した概念の関連性と、それらの概念間の空間関係を利用して、モデルの予測行動を説明・評価する。
具体的には以下の手順で行う:
- 概念関連性伝播(CRP)を用いて、CNNモデルの最終畳み込み層から概念を抽出する。
- 抽出した概念間の空間関係(位置、方向、距離など)を論理プログラミング(ILP)を用いて学習する。
- 学習した概念と関係からなる解釈可能な代理モデルを構築する。
- 代理モデルを用いて、CNNモデルの予測結果に対する説明を生成する。
- 概念のマスキングや関係の制約を通じて、CNNモデルの評価と改善を行う。
実験の結果、CoReXの説明は元のCNNモデルの予測結果に忠実であることが示された。また、概念関係に基づく説明は、誤分類の特定や修正に役立つことが確認された。
統計
概念の関連性が高い場合、その概念を除去するとCNNモデルの性能が低下する。
概念関係を学習したILPモデルの説明は、CNNモデルの予測結果とよく一致する。
引用
"概念の存在だけでなく、概念間の空間関係も、クラス判別に重要な役割を果たす可能性がある。"
"概念関係に基づく説明は、誤分類の特定や修正に役立つ可能性がある。"