Belangrijkste concepten
DNN内で学習された概念の分散表現を理解する新しい方法を提案し、外部監督なしでトレーニングされたモデル内の概念を明らかにする。
Samenvatting
この論文では、人間の監督が必要とされず、DNN内で学習された概念の分散表現を特定する新しい解釈フレームワークが紹介されています。提案された手法は、活性化状態を活用して概念の分散表現を特定します。具体的には、Configuration Distanceという新しいメトリックが導入されており、意思決定領域の差異を効果的に評価します。これにより、事前定義情報が不要な自動的なコンセプトセット収集が可能となります。主成分設定から主要な設定を抽出し、関連するインスタンスに一貫した解釈を提供するRelaxed Decision Region(RDR)が構築されます。実験では、RDRがDNNの解釈にさまざまなアプリケーションを提供することが示されています。
Statistieken
X回目:Y個のインスタンスはZ属性を共有しています。
Citaten
"Instances with similar neuron activation states tend to share coherent concepts."
"Our RDR framework can reveal various learned concepts, including subclasses, concepts leading to misclassification, and diverse concepts across different layers."