Diese Arbeit untersucht verschiedene Methoden zur Verbesserung der Interpretierbarkeit tiefer neuronaler Netzwerke für Aufgaben der Verarbeitung natürlicher Sprache.
Zu Beginn wird der Begriff der Interpretierbarkeit und seine verschiedenen Aspekte diskutiert. Anschließend werden drei Hauptkategorien lokaler Interpretationsmethoden zusammengefasst:
Interpretation der Modellvorhersagen durch relevante Eingabemerkmale:
Interpretation durch natürlichsprachliche Erklärungen:
Untersuchung der versteckten Zustände des Modells und der Wortrepräsentationen:
Abschließend werden Datensätze diskutiert, die häufig für die Untersuchung dieser Interpretationsmethoden verwendet werden.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Siwen Luo,Ha... alle arxiv.org 03-19-2024
https://arxiv.org/pdf/2103.11072.pdfDomande più approfondite