核心概念
CAM-basierte Methoden können fälschlicherweise wichtige Bereiche in Bildern hervorheben, die vom Modell nicht verwendet werden.
摘要
Der Artikel untersucht das Verhalten von CAM-basierten Erklärungsmethoden, wie GradCAM, für Convolutional Neural Networks (CNNs). Es wird gezeigt, dass diese Methoden oft Teile des Eingabebildes als wichtig einstufen, obwohl das Modell diese Bereiche gar nicht verwendet.
Zunächst wird theoretisch für ein einfaches, maskiertes CNN-Modell analysiert, dass die GradCAM-Erklärungen zu Beginn der Optimierung positive Werte in den nicht sichtbaren Bildregionen aufweisen. Dieses Verhalten wird dann auch experimentell für ein realistischeres, maskiertes VGG-Modell auf ImageNet bestätigt.
Dafür werden zwei neue Datensätze erstellt, in denen die Objekte absichtlich in den sichtbaren und unsichtbaren Bildteilen platziert sind. Es zeigt sich, dass CAM-basierte Methoden, mit Ausnahme von HiResCAM, weiterhin die nicht verwendeten Bildregionen hervorheben, was zu Fehlinterpretationen führen kann.
統計資料
Die Aktivierung in dem nicht sichtbaren Teil des Bildes, gemessen durch den Metrik μ(·), beträgt für die verschiedenen CAM-Methoden auf beiden Datensätzen im Durchschnitt:
GradCAM: 22,7% ± 13,4% (STACK-MIX), 21,6% ± 11,6% (STACK-GEN)
GradCAM++: 28,8% ± 8,1% (STACK-MIX), 28,5% ± 7,9% (STACK-GEN)
XGradCAM: 23,8% ± 9,0% (STACK-MIX), 22,8% ± 9,0% (STACK-GEN)
ScoreCAM: 19,9% ± 10,3% (STACK-MIX), 18,5% ± 10,6% (STACK-GEN)
AblationCAM: 21,0% ± 9,9% (STACK-MIX), 20,8% ± 9,6% (STACK-GEN)
EigenCAM: 51,7% ± 19,7% (STACK-MIX), 55,8% ± 21,6% (STACK-GEN)
HiResCAM: 0,0% ± 0,0% (STACK-MIX), 0,0% ± 0,0% (STACK-GEN)
引述
"CAM-basierte Methoden können fälschlicherweise wichtige Bereiche in Bildern hervorheben, die vom Modell nicht verwendet werden."
"Während CAM-basierte Methoden in der Praxis scheinbar zufriedenstellende Ergebnisse liefern, sollten sie mit Vorsicht verwendet werden, da einige Teile des Bildes hervorgehoben werden, obwohl sie vom Netzwerk nicht einmal gesehen werden."