Diese Arbeit untersucht verschiedene Methoden zur Verbesserung der Interpretierbarkeit tiefer neuronaler Netzwerke für Aufgaben der Verarbeitung natürlicher Sprache.
Zu Beginn wird der Begriff der Interpretierbarkeit und seine verschiedenen Aspekte diskutiert. Anschließend werden drei Hauptkategorien lokaler Interpretationsmethoden zusammengefasst:
Interpretation der Modellvorhersagen durch relevante Eingabemerkmale:
Interpretation durch natürlichsprachliche Erklärungen:
Untersuchung der versteckten Zustände des Modells und der Wortrepräsentationen:
Abschließend werden Datensätze diskutiert, die häufig für die Untersuchung dieser Interpretationsmethoden verwendet werden.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Siwen Luo,Ha... om arxiv.org 03-19-2024
https://arxiv.org/pdf/2103.11072.pdfDiepere vragen