Der Artikel stellt einen neuen geometrie-bewussten Aufmerksamkeitsmechanismus für Transformer-Modelle vor, der speziell für 3D-Computervisionaufgaben wie Neuansicht-Synthese entwickelt wurde.
Der Kern der Idee ist, die geometrische Beziehung zwischen Abfrage- und Schlüssel-Wert-Tokens direkt in den Aufmerksamkeitsmechanismus zu integrieren. Dazu wird eine relative Transformation berechnet, die die Schlüssel-Wert-Paare in den gleichen Koordinatenraum wie die Abfrage transformiert. Dadurch können die Aufmerksamkeitsgewichte in einem ausgerichteten Koordinatenraum berechnet werden.
Die Autoren evaluieren den Mechanismus, den sie "Geometric Transform Attention (GTA)" nennen, auf mehreren Neuansicht-Synthese-Datensätzen mit spärlichen und weit auseinanderliegenden Ansichten. Sie zeigen, dass GTA die Lerneffizienz und Leistung von state-of-the-art Transformer-basierten Neuansicht-Synthese-Modellen deutlich verbessert, ohne zusätzliche Parameter oder signifikanten Rechenaufwand.
Im Detail:
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Takeru Miyat... о arxiv.org 04-01-2024
https://arxiv.org/pdf/2310.10375.pdfГлибші Запити