Core Concepts
Moderne neuronale Netzwerke, die für die Bildklassifizierung entwickelt wurden, sind immer noch anfällig für kleine Bildtransformationen wie eine Verschiebung um ein Pixel, was zu einer signifikanten Änderung der Vorhersage führen kann.
Abstract
Der Artikel untersucht die Robustheit moderner neuronaler Netzwerke gegenüber kleinen realistischen Bildtransformationen. Obwohl neuronale Netzwerke bemerkenswerte Leistungen in der Bildklassifizierung erbringen, haben frühere Studien gezeigt, dass sie leicht durch winzige Transformationen wie eine Pixelverschiebung des Eingabebildes getäuscht werden können.
Um dieses Problem anzugehen, wurden in den letzten Jahren zwei Ansätze vorgeschlagen:
Der Einsatz großer Datensätze zusammen mit Datenaugmentierung in der Hoffnung, dass ein sehr vielfältiger Trainingssatz das Netzwerk dazu bringt, Invarianz zu lernen.
Architekturmodifikationen basierend auf der Abtasttheorie, um Bildverschiebungen explizit zu behandeln.
Der Artikel zeigt jedoch, dass diese Ansätze immer noch nicht ausreichen, um eine robuste Behandlung "natürlicher" Bildverschiebungen zu erreichen. Eine bloße Pixelverschiebung kann zu einer signifikanten Änderung der vorhergesagten Bildrepräsentation für etwa 40% der Testbilder in state-of-the-art-Modellen führen. Selbst Modelle, die explizit für die Robustheit gegenüber zyklischen Verschiebungen konstruiert wurden, können durch realistische (nicht-zyklische) Verschiebungen um 1 Pixel zu 11% der Zeit getäuscht werden.
Der Artikel präsentiert eine einfache Methode namens "Robust Inference by Crop Selection", die bewiesen werden kann, jedes gewünschte Maß an Konsistenz zu erreichen, wenn auch mit einem bescheidenen Kompromiss bei der Genauigkeit des Modells. Die Methode reduziert die Möglichkeit, state-of-the-art-Modelle durch eine 1-Pixel-Verschiebung zu täuschen, auf weniger als 5%, während sie nur einen Genauigkeitsrückgang von etwa 1% erleidet. Darüber hinaus zeigt der Artikel, dass die Methode leicht angepasst werden kann, um auch mit Kreisverschiebungen umzugehen, und in diesem Fall eine 100%ige Robustheit gegenüber ganzzahligen Verschiebungen bei state-of-the-art-Genauigkeit und ohne weitere Trainingsnotwendigkeit erreicht.
Stats
Eine 1-Pixel-Verschiebung kann zu einer signifikanten Änderung der vorhergesagten Bildrepräsentation für etwa 40% der Testbilder in state-of-the-art-Modellen führen.
Selbst Modelle, die explizit für die Robustheit gegenüber zyklischen Verschiebungen konstruiert wurden, können durch realistische (nicht-zyklische) Verschiebungen um 1 Pixel zu 11% der Zeit getäuscht werden.
Die vorgestellte Methode "Robust Inference by Crop Selection" reduziert die Möglichkeit, state-of-the-art-Modelle durch eine 1-Pixel-Verschiebung zu täuschen, auf weniger als 5%, während sie nur einen Genauigkeitsrückgang von etwa 1% erleidet.
Quotes
"In ultra-large scale datasets, accuracy/robustness might naturally come from dataset size itself rather than model priors."
"large-scale task and dataset agnostic pre-training combined with a reorientation towards zero-shot and fewshot benchmarking on broad evaluation suites (as advocated by Yogatama et al. [37] and Linzen [19]) promotes the development of more robust systems"