Core Concepts
深層学習システムの内部ニューロンの活性化を正しく解釈することは、深層学習システムが入力から何を関連するものとして検出しているかを明らかにし、深層学習システムの黒箱性を解明するのに役立つ。本研究では、大規模な背景知識と記号的推論を利用することで、内部ニューロンの活性化に対して意味のある解釈を自動的に生成できることを示す。
Abstract
本研究では、深層学習システムの内部ニューロンの活性化を解釈するための新しいゼロショットモデルアグノスティックな説明可能な人工知能手法を提案している。この手法は、約200万クラスからなるWikipediaベースの概念階層を背景知識として利用し、OWLベースの概念誘導を用いて説明を生成する。
提案手法の評価では、統計分析とコンセプトアクティベーション分析の2つの観点から検討を行った。統計分析の結果、提案手法は事前研究と比較して優れた性能を示した。コンセプトアクティベーション分析では、提案手法はCLIP-Dissectと同等の性能を示し、GPT-4よりも優れていることが分かった。
提案手法の主な利点は、(1)モデルに依存せずに適用可能であること、(2)生成した説明が人間にとって理解可能であること、(3)大規模な背景知識を利用し概念の多様性を確保できること、(4)説明生成自体が説明可能な記号的推論に基づいていることである。一方で、背景知識の選定と準備が必要となるのが課題である。
Stats
深層学習モデルの密集層の64ニューロンのうち、20ニューロンについて統計的に有意な結果が得られた。
提案手法は、ターゲット画像の90-100%を活性化するハイレリバンスな概念を19個生成した。
CLIP-Dissectは5個、GPT-4は12個のハイレリバンスな概念を生成した。
Quotes
"深層学習システムの内部ニューロンの活性化を正しく解釈することは、深層学習システムが入力から何を関連するものとして検出しているかを明らかにし、深層学習システムの黒箱性を解明するのに役立つ。"
"提案手法は、モデルに依存せずに適用可能であり、生成した説明が人間にとって理解可能で、大規模な背景知識を利用し概念の多様性を確保でき、説明生成自体が説明可能な記号的推論に基づいている。"