Diese Arbeit untersucht verschiedene Methoden zur Verbesserung der Interpretierbarkeit tiefer neuronaler Netzwerke für Aufgaben der Verarbeitung natürlicher Sprache.
Zu Beginn wird der Begriff der Interpretierbarkeit und seine verschiedenen Aspekte diskutiert. Anschließend werden drei Hauptkategorien lokaler Interpretationsmethoden zusammengefasst:
Interpretation der Modellvorhersagen durch relevante Eingabemerkmale:
Interpretation durch natürlichsprachliche Erklärungen:
Untersuchung der versteckten Zustände des Modells und der Wortrepräsentationen:
Abschließend werden Datensätze diskutiert, die häufig für die Untersuchung dieser Interpretationsmethoden verwendet werden.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Siwen Luo,Ha... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2103.11072.pdfDeeper Inquiries