Core Concepts
Wir schlagen einen interaktiven Mehrparteien-Klassifikator vor, der auch für komplexe Agenten wie neuronale Netze nachweisbare Interpretierbarkeitsgarantien bietet. Diese Garantien bestehen aus unteren Schranken für die gegenseitige Information zwischen ausgewählten Merkmalen und der Klassifikationsentscheidung.
Abstract
In dieser Arbeit entwickeln wir einen Klassifikator, der unter vernünftigen Annahmen Interpretierbarkeitsgarantien auf der Grundlage von Merkmalen bietet. Dafür verbinden wir die Klassifikation mit dem Merlin-Arthur-Protokoll aus den Interaktiven Beweissystemen. Unser Aufbau besteht aus einem Merkmalsklassifikator namens Arthur und zwei Merkmalsselektoren, die als Merlin und Morgana bezeichnet werden. Merlin versucht, Merkmale zu senden, die Arthur dazu bringen, den zugrunde liegenden Datenpunkt richtig zu klassifizieren. Morgana wählt stattdessen Merkmale, um Arthur davon zu überzeugen, die falsche Klasse anzugeben. Arthur weiß nicht, wer die Merkmale gesendet hat, und darf "Weiß nicht!" sagen, wenn er die Klasse nicht erkennen kann.
In diesem Kontext können wir dann die Konzepte der Vollständigkeit und Korrektheit aus den Interaktiven Beweissystemen auf unser System übertragen. Die Vollständigkeit beschreibt die Wahrscheinlichkeit, dass Arthur aufgrund von Merlins Merkmalen richtig klassifiziert. Die Korrektheit ist die Wahrscheinlichkeit, dass Arthur von Morgana nicht getäuscht wird, also entweder die richtige Klasse angibt oder "Weiß nicht!" sagt. Diese beiden Größen können auf einem Testdatensatz gemessen werden und werden verwendet, um eine untere Schranke für die in Merlins Merkmalen enthaltene Information zu bestimmen.
Wir zeigen, dass wir diese Garantien auch dann erhalten können, wenn die Agenten nicht optimal spielen, sondern nur eine vergleichbare Erfolgsquote wie der jeweils andere Spieler haben. Außerdem führen wir das Konzept der asymmetrischen Merkmalkorrelation ein, das die Korrelationen erfasst, die es schwierig machen, eine Informationsschranke zu etablieren. Wir zeigen numerisch, wie der interaktive Aufbau eine wichtige Manipulation verhindert, die für andere XAI-Methoden demonstriert wurde. Schließlich evaluieren wir unsere theoretischen Schranken auf dem MNIST-Datensatz für Merlin- und Arthur-Agenten, die auf Frank-Wolfe-Optimierern und U-Netzen basieren.
Stats
Keine relevanten Statistiken oder Zahlen im Artikel.
Quotes
Keine markanten Zitate im Artikel.