Der Artikel untersucht das Verhalten von CAM-basierten Erklärungsmethoden, wie GradCAM, für Convolutional Neural Networks (CNNs). Es wird gezeigt, dass diese Methoden oft Teile des Eingabebildes als wichtig einstufen, obwohl das Modell diese Bereiche gar nicht verwendet.
Zunächst wird theoretisch für ein einfaches, maskiertes CNN-Modell analysiert, dass die GradCAM-Erklärungen zu Beginn der Optimierung positive Werte in den nicht sichtbaren Bildregionen aufweisen. Dieses Verhalten wird dann auch experimentell für ein realistischeres, maskiertes VGG-Modell auf ImageNet bestätigt.
Dafür werden zwei neue Datensätze erstellt, in denen die Objekte absichtlich in den sichtbaren und unsichtbaren Bildteilen platziert sind. Es zeigt sich, dass CAM-basierte Methoden, mit Ausnahme von HiResCAM, weiterhin die nicht verwendeten Bildregionen hervorheben, was zu Fehlinterpretationen führen kann.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Magamed Taim... om arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01964.pdfDiepere vragen