Strukturelle Selbstaufmerksamkeit für visuelle Transformatoren zur Verbesserung der Repräsentationslernung
Die vorgeschlagene strukturelle Selbstaufmerksamkeit (StructSA) nutzt die reichen Strukturmuster der Abfrage-Schlüssel-Korrelation effektiv für das visuelle Repräsentationslernen. StructSA erkennt diverse strukturelle Muster aus den Korrelationen zwischen der Abfrage und lokalen Schlüsselblöcken über Konvolution und verwendet sie, um lokal kontextuelle Merkmale dynamisch zusammenzufassen, was die Erfassung von Szenenaufteilungen, Objektbewegungen und Objektbeziehungen in Bildern und Videos ermöglicht.