Główne pojęcia
Der Spektrale Konvolutionstransformer (SCT) kombiniert die Hartley-Transformation zur Erfassung globaler Informationen mit konvolutionalen Operatoren zur Erfassung lokaler Informationen, um sowohl globale als auch lokale Beziehungen in Bildern effektiv zu erfassen.
Streszczenie
Der Artikel stellt eine neuartige Architektur für Transformatoren in der Bildverarbeitung vor, den Spektralen Konvolutionstransformer (SCT). SCT kombiniert zwei Schlüsselkomponenten:
Hartley-Transformation: Erfassung globaler Informationen durch eine reellwertige spektrale Transformation.
Konvolutionale Operatoren: Erfassung lokaler Informationen durch konvolutionale Schichten.
Durch die Kombination dieser beiden Komponenten kann SCT sowohl globale als auch lokale Beziehungen in Bildern effektiv modellieren.
Im Vergleich zu bestehenden Ansätzen wie ViT, PVT, Swin Transformer, GFNet und AFNO zeigt SCT überlegene Leistung auf dem ImageNet-Datensatz bei gleichzeitig geringerer Parameteranzahl und Rechenaufwand. SCT erreicht 84,5% Top-1-Genauigkeit für die SCT-C-Small-Variante und 85,9% für SCT-C-Large.
Weitere Experimente zeigen die Überlegenheit von SCT bei Transferlernen auf CIFAR-10, CIFAR-100, Oxford Flowers und Stanford Cars sowie bei der Instanzsegmentierung auf COCO. Die Analyse der spektralen Transformation und der Architekturvarianten unterstreicht die Bedeutung der Kombination von globaler und lokaler Modellierung für die Leistungsfähigkeit von Transformatoren in der Bildverarbeitung.
Statystyki
Die SCT-C-Small-Variante erreicht 84,5% Top-1-Genauigkeit auf ImageNet1K.
Die SCT-C-Large-Variante erreicht 85,9% Top-1-Genauigkeit auf ImageNet1K.
Die SCT-C-Huge-Variante erreicht 86,4% Top-1-Genauigkeit auf ImageNet1K.
Cytaty
Keine relevanten Zitate identifiziert.