Vergleich der Entscheidungsfindungsmechanismen von Transformern und CNNs mithilfe von Erklärungsmethoden
核心概念
Transformers und ConvNeXt zeigen ein stärker kompositionales Verhalten, bei dem die Entscheidung auf der gemeinsamen Berücksichtigung mehrerer Bildteile basiert, während traditionelle CNNs und destillierte Transformers ein stärker disjunktives Verhalten aufweisen und sich auf mehrere diverse, aber kleinere Bildteile stützen.
摘要
Die Studie untersucht die Entscheidungsfindungsmechanismen von verschiedenen visuellen Erkennungsmodellen, wie Transformers und konvolutionalen neuronalen Netzen (CNNs), mithilfe von Erklärungsmethoden.
Es werden zwei Ansätze vorgestellt:
-
Zählen von Teilerklärungen (Sub-Explanations): Hierbei wird untersucht, wie die Modelle auf partielle Evidenz reagieren, indem Bildpatches aus den minimalen ausreichenden Erklärungen (MSEs) gelöscht werden. Die Anzahl der Patch-Konjunktionen mit hohen Wahrscheinlichkeitsquotienten deutet auf ein kompositionales Verhalten hin, bei dem die Klassifikationsentscheidung gemeinsam auf mehreren lokalen Patches basiert. Im Gegensatz dazu zeigen CNNs und destillierte Transformers ein stärker disjunktives Verhalten, bei dem die Modelle nur wenige Patches benötigen, um eine hochkonfidente Vorhersage zu treffen.
-
Kreuztest: Hierbei wird eine Erklärung (Bildmaske) für ein Bild basierend auf einem Modell berechnet und dann als Eingabe für ein zweites Modell verwendet. Dies ermöglicht es zu verstehen, ob die Regionen, die für das erste Modell signifikant sind, auch für das zweite Modell relevant sind. Die Ergebnisse zeigen, dass die verschiedenen Modellgruppen (ältere CNNs, neuere CNNs, ConvNeXt, nicht-destillierte Transformers, destillierte Transformers) unterschiedliche visuelle Merkmale für die Klassifikation verwenden.
Die Studie zeigt, dass die Wahl der Normalisierungsmethode einen starken Einfluss auf das Kompositionalitätsverhalten hat. Batchnormalisierung führt zu einem stärker disjunktiven Verhalten, während Schicht- und Gruppennormalisierung zu einem kompositionaleren Verhalten führen. Die Rezeptivfeldgröße beeinflusst die Kompositionalität ebenfalls, aber in geringerem Maße.
Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods
統計資料
"Die Klassifikationsentscheidung wird gemeinsam auf mehreren lokalen Patches aufgebaut, und das Entfernen einiger Patches senkt lediglich das Vertrauen, ändert aber möglicherweise nicht die Klassifikationsentscheidung."
"Das Netzwerk kann sehr wenige Patches benötigen, um eine hochkonfidente Vorhersage zu treffen, kann sich aber auf jede von mehreren diversen Kombinationen verlassen, um eine hochkonfidente Vorhersage zu erhalten, ähnlich wie eine logische ODER-Verknüpfung zwischen den verschiedenen Konjunktionen."
"Batchnormalisierung führt zu einem signifikant weniger kompositionalem Netzwerk im Vergleich zu Schichtnormalisierung."
引述
"Die Klassifikationsentscheidung wird gemeinsam auf mehreren lokalen Patches aufgebaut, und das Entfernen einiger Patches senkt lediglich das Vertrauen, ändert aber möglicherweise nicht die Klassifikationsentscheidung."
"Das Netzwerk kann sehr wenige Patches benötigen, um eine hochkonfidente Vorhersage zu treffen, kann sich aber auf jede von mehreren diversen Kombinationen verlassen, um eine hochkonfidente Vorhersage zu erhalten, ähnlich wie eine logische ODER-Verknüpfung zwischen den verschiedenen Konjunktionen."
"Batchnormalisierung führt zu einem signifikant weniger kompositionalem Netzwerk im Vergleich zu Schichtnormalisierung."
深入探究
Vor- und Nachteile der kompositionalen und disjunktiven Verhaltensweise der Modelle
Die kompositionale Verhaltensweise der Modelle, die darauf abzielt, eine Klassifikation durch das gemeinsame Betrachten mehrerer Bildteile aufzubauen, bietet einige Vorteile. Erstens kann sie die Robustheit des Modells gegenüber Störungen und Auslassungen erhöhen. Da das Modell auf mehreren lokalen Merkmalen basiert, kann es auch dann noch zuverlässige Vorhersagen treffen, wenn einige dieser Merkmale nicht verfügbar sind. Zweitens kann die Kompositionalität die Kalibrierung des Modells verbessern, da es einfacher ist, "halbwegs sichere" Vorhersagen zu generieren. Drittens kann die kompositionale Verhaltensweise die Interpretierbarkeit des Modells erhöhen, da es einfacher ist, nachzuvollziehen, wie und warum das Modell zu einer bestimmten Entscheidung gelangt ist.
Auf der anderen Seite kann die disjunktive Verhaltensweise, bei der das Modell zuversichtliche Vorhersagen aus einer kleineren Anzahl von Bildteilen ableiten kann, auch Vorteile bieten. Zum Beispiel kann sie die Konsistenz der Vorhersagen unter Bedingungen mit teilweisen Verdeckungen verbessern. Wenn das Modell in der Lage ist, aus verschiedenen Kombinationen von Merkmalen zuverlässige Vorhersagen zu treffen, kann es in Situationen, in denen bestimmte Merkmale nicht verfügbar sind, dennoch robuste Entscheidungen treffen.
Vorteile beider Verhaltensweisen in einem Modell kombinieren
Um die Vorteile beider Verhaltensweisen zu kombinieren, könnte man ein hybrides Modell entwickeln, das sowohl kompositionale als auch disjunktive Elemente enthält. Dies könnte durch die Implementierung von Mechanismen erreicht werden, die es dem Modell ermöglichen, flexibel zwischen verschiedenen Strategien zu wechseln, je nach den vorliegenden Bedingungen. Zum Beispiel könnte das Modell in der Lage sein, sowohl auf lokalen Merkmalen aufzubauen als auch aus einer kleineren Anzahl von Merkmalen zuverlässige Vorhersagen zu treffen. Durch die Kombination dieser Ansätze könnte das Modell sowohl robust als auch flexibel sein.
Auswirkungen anderer Normalisierungstechniken auf das Kompositionalitätsverhalten der Modelle
Die Wahl der Normalisierungstechniken, wie Batch-Normalisierung, Gruppennormalisierung und Layer-Normalisierung, kann erhebliche Auswirkungen auf das Kompositionalitätsverhalten der Modelle haben. In der Studie wurde festgestellt, dass die Batch-Normalisierung dazu neigt, das Modell weniger kompositional zu machen, da sie dazu führt, dass wenige große Aktivierungen die Vorhersagen dominieren. Im Gegensatz dazu führen Gruppen- und Layernormalisierung zu einer stärkeren Kompositionalität, da sie die Aktivierungen über verschiedene Kanäle hinweg normalisieren und so ein ausgewogeneres Verhältnis zwischen den Merkmalen ermöglichen.
Durch die Kombination verschiedener Normalisierungstechniken, wie einer Mischung aus Batch- und Gruppennormalisierung, könnte man versuchen, die Vorteile beider Ansätze zu nutzen. Dies könnte dazu beitragen, die Kompositionalität des Modells zu verbessern, indem es eine ausgewogenere Nutzung der Merkmale ermöglicht und die Abhängigkeit von einzelnen Merkmalen verringert. Letztendlich könnte die Wahl der Normalisierungstechniken einen signifikanten Einfluss auf die Leistung und das Verhalten des Modells haben.