Der Artikel untersucht das Verhalten von CAM-basierten Erklärungsmethoden, wie GradCAM, für Convolutional Neural Networks (CNNs). Es wird gezeigt, dass diese Methoden oft Teile des Eingabebildes als wichtig einstufen, obwohl das Modell diese Bereiche gar nicht verwendet.
Zunächst wird theoretisch für ein einfaches, maskiertes CNN-Modell analysiert, dass die GradCAM-Erklärungen zu Beginn der Optimierung positive Werte in den nicht sichtbaren Bildregionen aufweisen. Dieses Verhalten wird dann auch experimentell für ein realistischeres, maskiertes VGG-Modell auf ImageNet bestätigt.
Dafür werden zwei neue Datensätze erstellt, in denen die Objekte absichtlich in den sichtbaren und unsichtbaren Bildteilen platziert sind. Es zeigt sich, dass CAM-basierte Methoden, mit Ausnahme von HiResCAM, weiterhin die nicht verwendeten Bildregionen hervorheben, was zu Fehlinterpretationen führen kann.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Magamed Taim... kl. arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01964.pdfDybere Forespørgsler