Die vorgeschlagene strukturelle Selbstaufmerksamkeit (StructSA) nutzt die reichen Strukturmuster der Abfrage-Schlüssel-Korrelation effektiv für das visuelle Repräsentationslernen. StructSA erkennt diverse strukturelle Muster aus den Korrelationen zwischen der Abfrage und lokalen Schlüsselblöcken über Konvolution und verwendet sie, um lokal kontextuelle Merkmale dynamisch zusammenzufassen, was die Erfassung von Szenenaufteilungen, Objektbewegungen und Objektbeziehungen in Bildern und Videos ermöglicht.
Wir stellen SimA vor, einen einfachen und effektiven Softmax-freien Aufmerksamkeitsblock, der die Leistung von Vision-Transformatoren verbessert, ohne die Genauigkeit zu beeinträchtigen.