核心概念
Wir stellen einen geometrie-bewussten Aufmerksamkeitsmechanismus vor, der die geometrische Struktur von Tokens direkt in den Transformer-Aufmerksamkeitsmechanismus integriert. Dieser Mechanismus verbessert die Lerneffizienz und Leistung von state-of-the-art Transformer-basierten Modellen für Neuansicht-Synthese-Aufgaben.
摘要
Der Artikel stellt einen neuen geometrie-bewussten Aufmerksamkeitsmechanismus für Transformer-Modelle vor, der speziell für 3D-Computervisionaufgaben wie Neuansicht-Synthese entwickelt wurde.
Der Kern der Idee ist, die geometrische Beziehung zwischen Abfrage- und Schlüssel-Wert-Tokens direkt in den Aufmerksamkeitsmechanismus zu integrieren. Dazu wird eine relative Transformation berechnet, die die Schlüssel-Wert-Paare in den gleichen Koordinatenraum wie die Abfrage transformiert. Dadurch können die Aufmerksamkeitsgewichte in einem ausgerichteten Koordinatenraum berechnet werden.
Die Autoren evaluieren den Mechanismus, den sie "Geometric Transform Attention (GTA)" nennen, auf mehreren Neuansicht-Synthese-Datensätzen mit spärlichen und weit auseinanderliegenden Ansichten. Sie zeigen, dass GTA die Lerneffizienz und Leistung von state-of-the-art Transformer-basierten Neuansicht-Synthese-Modellen deutlich verbessert, ohne zusätzliche Parameter oder signifikanten Rechenaufwand.
Im Detail:
- GTA transformiert die Schlüssel-Wert-Paare in den Koordinatenraum der Abfrage-Tokens, bevor die Aufmerksamkeitsgewichte berechnet werden.
- Dies ermöglicht es dem Modell, die Aufmerksamkeitsgewichte in einem ausgerichteten Koordinatenraum zu berechnen und die Ausgabe in den lokalen Koordinaten jedes Tokens zu addieren.
- Die Autoren zeigen, dass diese direkte Integration geometrischer Transformationen in den Aufmerksamkeitsmechanismus die Leistung deutlich verbessert im Vergleich zu herkömmlichen Positionscodierungen.
- Auf mehreren Neuansicht-Synthese-Datensätzen übertrifft GTA die Baseline-Modelle in allen Rekonstruktionsmetriken.
統計資料
Die Kameraextrinsiken bilden die spezielle Euklidische Gruppe SE(3).
Die Bildpositionen werden als Elemente der 2D-Rotationsgruppe SO(2) dargestellt.
引述
Keine relevanten Zitate gefunden.