Die Studie untersucht die Verschiebungsinvarianz von Convolutional Neural Networks (CNNs) durch eine umfangreiche Korrelationsanalyse. Dabei wird festgestellt, dass die maximale Abtastverzerrung (MSB) negativ mit der Verschiebungsinvarianz korreliert ist. Basierend auf dieser Erkenntnis wird ein neuartiger lernbarer Pooling-Operator namens Translation Invariant Polyphase Sampling (TIPS) entwickelt, der die MSB reduziert und translationsinvariante Darstellungen lernt. TIPS kann in beliebige CNNs integriert und end-to-end trainiert werden, ohne den Rechenaufwand wesentlich zu erhöhen.
Die Experimente zeigen, dass TIPS im Vergleich zu früheren Methoden konsistente Leistungsverbesserungen in Bezug auf Genauigkeit, Verschiebungskonsistenz und Verschiebungstreue auf mehreren Benchmarks für Bildklassifizierung und semantische Segmentierung erzielt. TIPS weist auch die geringste MSB im Vergleich zu allen vorherigen Methoden auf, was die starken empirischen Ergebnisse erklärt.
Darüber hinaus führt der Einsatz von TIPS zu Verbesserungen bei der Robustheit gegenüber adversarischen Angriffen und natürlichen Bildverzerrungen.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Sourajit Sah... ב- arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07410.pdfשאלות מעמיקות