Vergleich der Entscheidungsfindungsmechanismen von Transformern und CNNs mithilfe von Erklärungsmethoden
Transformers und ConvNeXt zeigen ein stärker kompositionales Verhalten, bei dem die Entscheidung auf der gemeinsamen Berücksichtigung mehrerer Bildteile basiert, während traditionelle CNNs und destillierte Transformers ein stärker disjunktives Verhalten aufweisen und sich auf mehrere diverse, aber kleinere Bildteile stützen.