Hierarchische Aufmerksamkeitsbasierte Transformer-Netzwerke für effiziente visuelle Szenenanalyse
Die Arbeit stellt eine neuartige Hierarchische Multi-Head-Selbstaufmerksamkeit (H-MHSA) vor, die die Flexibilität und Effizienz der Selbstaufmerksamkeitsberechnung in Transformern verbessert. H-MHSA modelliert sowohl lokale als auch globale Beziehungen effizient, ohne die Feinheiten zu opfern.