Der Artikel untersucht das Verhalten von CAM-basierten Erklärungsmethoden, wie GradCAM, für Convolutional Neural Networks (CNNs). Es wird gezeigt, dass diese Methoden oft Teile des Eingabebildes als wichtig einstufen, obwohl das Modell diese Bereiche gar nicht verwendet.
Zunächst wird theoretisch für ein einfaches, maskiertes CNN-Modell analysiert, dass die GradCAM-Erklärungen zu Beginn der Optimierung positive Werte in den nicht sichtbaren Bildregionen aufweisen. Dieses Verhalten wird dann auch experimentell für ein realistischeres, maskiertes VGG-Modell auf ImageNet bestätigt.
Dafür werden zwei neue Datensätze erstellt, in denen die Objekte absichtlich in den sichtbaren und unsichtbaren Bildteilen platziert sind. Es zeigt sich, dass CAM-basierte Methoden, mit Ausnahme von HiResCAM, weiterhin die nicht verwendeten Bildregionen hervorheben, was zu Fehlinterpretationen führen kann.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Magamed Taim... pada arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01964.pdfPertanyaan yang Lebih Dalam