Der Artikel stellt einen neuen geometrie-bewussten Aufmerksamkeitsmechanismus für Transformer-Modelle vor, der speziell für 3D-Computervisionaufgaben wie Neuansicht-Synthese entwickelt wurde.
Der Kern der Idee ist, die geometrische Beziehung zwischen Abfrage- und Schlüssel-Wert-Tokens direkt in den Aufmerksamkeitsmechanismus zu integrieren. Dazu wird eine relative Transformation berechnet, die die Schlüssel-Wert-Paare in den gleichen Koordinatenraum wie die Abfrage transformiert. Dadurch können die Aufmerksamkeitsgewichte in einem ausgerichteten Koordinatenraum berechnet werden.
Die Autoren evaluieren den Mechanismus, den sie "Geometric Transform Attention (GTA)" nennen, auf mehreren Neuansicht-Synthese-Datensätzen mit spärlichen und weit auseinanderliegenden Ansichten. Sie zeigen, dass GTA die Lerneffizienz und Leistung von state-of-the-art Transformer-basierten Neuansicht-Synthese-Modellen deutlich verbessert, ohne zusätzliche Parameter oder signifikanten Rechenaufwand.
Im Detail:
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Takeru Miyat... alle arxiv.org 04-01-2024
https://arxiv.org/pdf/2310.10375.pdfDomande più approfondite