Основные понятия
Unser Ansatz TransPose nutzt einen geometriebewussten Transformer-Encoder, um lokale und globale geometrische Merkmale aus Punktwolken effektiv zu extrahieren und für die 6D-Objektposenschätzung zu verwenden.
Аннотация
Die Kernidee von TransPose ist, dass die Geometrie und Topologie von Punktwolken eine Anleitung für den Austausch globaler Informationen liefern können. Dazu entwerfen wir zunächst einen auf Graphkonvolutionsnetzwerken basierenden Featureextraktor, um lokale Merkmale effizient zu extrahieren. Um die lokalen Merkmale auch mit globalen Informationen anzureichern, nutzen wir dann den Transformer-Encoder. Darüber hinaus führen wir eine geometriebewusste Komponente als induktive Voreinstellung in den Transformer-Encoder ein, um den Austausch globaler Informationen eng mit der Punktwolkenaufgabe zu koppeln. Umfangreiche Experimente auf drei Benchmark-Datensätzen zeigen, dass unser Ansatz im Vergleich zu anderen Methoden, die nur RGB-D-Bilder verwenden, wettbewerbsfähige Ergebnisse erzielt.
Статистика
Die durchschnittliche Genauigkeit unseres Verfahrens auf dem LineMod-Datensatz beträgt 99,4%, was 4,25% höher ist als die beste RGB-basierte Methode DPOD und 0,4% höher als die zweitbeste tiefenbasierte Methode G2L-Net.
Auf dem Occlusion LineMod-Datensatz übertreffen wir andere GCN-basierte und Transformer-basierte Methoden um 0,16%, 0,54% bzw. 6,84%.
Цитаты
"Die Kernidee von TransPose ist, dass die Geometrie und Topologie von Punktwolken eine Anleitung für den Austausch globaler Informationen liefern können."
"Wir führen eine geometriebewusste Komponente als induktive Voreinstellung in den Transformer-Encoder ein, um den Austausch globaler Informationen eng mit der Punktwolkenaufgabe zu koppeln."