WaveMix ist ein neuartiges, ressourceneffizientes neuronales Netzwerk-Architektur für Computervision, das vergleichbare oder bessere Genauigkeit als state-of-the-art konvolutionale neuronale Netzwerke, Vision-Transformer und Token-Mixer bei deutlich weniger Trainingsparametern, GPU-RAM und Berechnungen erreicht.
ParFormer ist eine verbesserte Transformer-Architektur, die die Integration verschiedener Token-Mixer in einer einzigen Stufe ermöglicht, um die Fähigkeiten zur Merkmalsextraktion zu verbessern. ParFormer kombiniert lokale und globale Daten, um kurz- und langreichweitige räumliche Beziehungen präzise darzustellen, ohne rechenintensive Methoden wie Fensterverschiebung zu benötigen. Zusätzlich wird eine konvolutive Aufmerksamkeits-Patch-Einbettung (CAPE) eingeführt, um die Token-Mixer-Extraktion mit einem konvolutiven Aufmerksamkeitsmodul zu verbessern.