Der Artikel untersucht die Robustheit moderner neuronaler Netzwerke gegenüber kleinen realistischen Bildtransformationen. Obwohl neuronale Netzwerke bemerkenswerte Leistungen in der Bildklassifizierung erbringen, haben frühere Studien gezeigt, dass sie leicht durch winzige Transformationen wie eine Pixelverschiebung des Eingabebildes getäuscht werden können.
Um dieses Problem anzugehen, wurden in den letzten Jahren zwei Ansätze vorgeschlagen:
Der Artikel zeigt jedoch, dass diese Ansätze immer noch nicht ausreichen, um eine robuste Behandlung "natürlicher" Bildverschiebungen zu erreichen. Eine bloße Pixelverschiebung kann zu einer signifikanten Änderung der vorhergesagten Bildrepräsentation für etwa 40% der Testbilder in state-of-the-art-Modellen führen. Selbst Modelle, die explizit für die Robustheit gegenüber zyklischen Verschiebungen konstruiert wurden, können durch realistische (nicht-zyklische) Verschiebungen um 1 Pixel zu 11% der Zeit getäuscht werden.
Der Artikel präsentiert eine einfache Methode namens "Robust Inference by Crop Selection", die bewiesen werden kann, jedes gewünschte Maß an Konsistenz zu erreichen, wenn auch mit einem bescheidenen Kompromiss bei der Genauigkeit des Modells. Die Methode reduziert die Möglichkeit, state-of-the-art-Modelle durch eine 1-Pixel-Verschiebung zu täuschen, auf weniger als 5%, während sie nur einen Genauigkeitsrückgang von etwa 1% erleidet. Darüber hinaus zeigt der Artikel, dass die Methode leicht angepasst werden kann, um auch mit Kreisverschiebungen umzugehen, und in diesem Fall eine 100%ige Robustheit gegenüber ganzzahligen Verschiebungen bei state-of-the-art-Genauigkeit und ohne weitere Trainingsnotwendigkeit erreicht.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Ofir Shifman... kl. arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.07153.pdfDybere Forespørgsler