ParFormer: Parallele Vision-Transformer-Architektur mit lokalem und globalem Token-Mixer und konvolutiver Aufmerksamkeits-Patch-Einbettung
ParFormer ist eine verbesserte Transformer-Architektur, die die Integration verschiedener Token-Mixer in einer einzigen Stufe ermöglicht, um die Fähigkeiten zur Merkmalsextraktion zu verbessern. ParFormer kombiniert lokale und globale Daten, um kurz- und langreichweitige räumliche Beziehungen präzise darzustellen, ohne rechenintensive Methoden wie Fensterverschiebung zu benötigen. Zusätzlich wird eine konvolutive Aufmerksamkeits-Patch-Einbettung (CAPE) eingeführt, um die Token-Mixer-Extraktion mit einem konvolutiven Aufmerksamkeitsmodul zu verbessern.