Die Arbeit präsentiert einen neuartigen Ansatz, um die hohe Rechenleistung und den hohen Speicherplatzbedarf, die mit der Multi-Head-Selbstaufmerksamkeit (MHSA) in herkömmlichen Vision-Transformern verbunden sind, zu reduzieren.
Dazu wird eine Hierarchische MHSA (H-MHSA) eingeführt, die die Selbstaufmerksamkeit in einer hierarchischen Art und Weise berechnet. Zunächst wird das Eingabebild in Patches unterteilt und jeder Patch als Token behandelt. Die vorgeschlagene H-MHSA lernt dann Tokenbeziehungen innerhalb lokaler Patches, was als lokale Beziehungsmodellierung dient. Anschließend werden die kleinen Patches zu größeren zusammengefasst und H-MHSA modelliert die globalen Abhängigkeiten für die geringe Anzahl der zusammengeführten Token. Schließlich werden die lokalen und globalen aufmerksamen Merkmale aggregiert, um Merkmale mit leistungsfähiger Repräsentationskapazität zu erhalten.
Da in jedem Schritt nur für eine begrenzte Anzahl von Tokens Aufmerksamkeit berechnet wird, wird die Rechenbelastung erheblich reduziert. Daher kann H-MHSA die globalen Beziehungen zwischen Tokens effizient modellieren, ohne Feinheiten zu opfern.
Mit der H-MHSA-Komponente integriert, wird eine Familie von Hierarchical-Attention-based Transformer Networks, nämlich HAT-Net, aufgebaut. Um die Überlegenheit von HAT-Net beim Szenenverständnis zu demonstrieren, werden umfangreiche Experimente zu grundlegenden Visionsaufgaben wie Bildklassifizierung, semantische Segmentierung, Objekterkennung und Instanzsegmentierung durchgeführt. Die Ergebnisse zeigen, dass HAT-Net gegenüber früheren Backbone-Netzwerken günstig abschneidet.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yun Liu,Yu-H... kl. arxiv.org 03-27-2024
https://arxiv.org/pdf/2106.03180.pdfDybere Forespørgsler