Der Artikel stellt einen neuartigen Ansatz namens DeCoTR vor, der sowohl 2D- als auch 3D-Aufmerksamkeiten nutzt, um eine hochgenaue Tiefenergänzung ohne iterative räumliche Propagation zu ermöglichen.
Zunächst wird das gängige Basisnetzwerk S2D durch den Einsatz von Aufmerksamkeiten auf 2D-Merkmale in der Flaschenhals- und Skip-Verbindungen verbessert. Dadurch wird die Leistung des einfachen Netzwerks deutlich gesteigert und es erreicht Ergebnisse auf Augenhöhe mit den neuesten, komplexen Transformer-basierten Modellen.
Ausgehend von den Anfangstiefen und Merkmalen dieses Netzwerks werden die 2D-Merkmale zu einer 3D-Punktwolke hochgerechnet und ein 3D-Punkt-Transformer zur Verarbeitung konstruiert. Dadurch kann das Modell explizit 3D-geometrische Merkmale lernen und nutzen. Zusätzlich werden Normalisierungstechniken für die Punktwolke vorgeschlagen, die das Lernen verbessern und zu einer höheren Genauigkeit führen als der direkte Einsatz von Punkt-Transformern.
Darüber hinaus wird eine globale Aufmerksamkeit auf heruntergeskalten Punktwolkenmerkmalen eingeführt, die ein Verständnis von Langzeitkontext ermöglicht, ohne den Rechenaufwand zu erhöhen.
Die Evaluierung auf etablierten Tiefenergänzungsbenchmarks, einschließlich NYU Depth V2 und KITTI, zeigt, dass DeCoTR neue Bestleistungen erzielt. Darüber hinaus demonstrieren Zero-Shot-Evaluierungen auf ScanNet und DDAD eine überlegene Verallgemeinerbarkeit im Vergleich zu bestehenden Ansätzen.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies