Der Artikel untersucht die Herausforderungen bei der Erklärung von Vision Transformern. Die Autoren stellen fest, dass bestehende Erklärungsmethoden die Auswirkungen von Tokenumwandlungen vernachlässigen, was zu unvollständigen Interpretationen führen kann.
Um dies zu adressieren, schlagen die Autoren TokenTM vor, eine neuartige Post-hoc-Erklärungsmethode, die zwei Schlüsselkomponenten umfasst:
Tokenumwandlungsmessung: Hierbei wird der Einfluss von Tokenumwandlungen anhand von Längenänderungen und Richtungskorrelationen quantifiziert. Dies ergänzt die bisher verwendeten Aufmerksamkeitsgewichte.
Aggregationsrahmenwerk: Dieses Rahmenwerk integriert die Aufmerksamkeits- und Tokenumwandlungsinformationen über mehrere Schichten hinweg, um die kumulativen Auswirkungen auf die Vorhersagen des Gesamtmodells zu erfassen.
Die experimentellen Ergebnisse zeigen, dass TokenTM im Vergleich zu state-of-the-art-Methoden eine überlegene Leistung bei der Lokalisierung wichtiger Bildregionen und der Erklärung von Modellvorhersagen erzielt.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Junyi Wu,Bin... klokken arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14552.pdfDypere Spørsmål