Der Dual Perspective Fusion Transformer (DPFT) ist ein neuartiger Ansatz zur Fusion von Kamera- und Radardaten für die 3D-Objekterkennung. Er adressiert die Herausforderungen, die durch die unterschiedlichen Datenformate, Dimensionalitäten und Auflösungen der beiden Sensoren entstehen.
Der DPFT verwendet rohe Radardaten (Radar-Würfel) anstelle von Punktwolken, um Informationsverluste zu vermeiden. Die Radardaten werden in zwei Perspektiven projiziert - parallel zur Kameraebene und senkrecht dazu (Bird's Eye View) - um die komplementären Sensoreigenschaften optimal zu nutzen.
Durch die direkte Abfrage fusionierter Merkmale aus den einzelnen Eingaben, ohne ein gemeinsames Merkmalssystem zu benötigen, kann der DPFT die Vorteile beider Sensoren effizient kombinieren. Die Experimente zeigen, dass der DPFT den aktuellen Stand der Technik auf dem herausfordernden K-Radar-Datensatz übertrifft und sogar mit Kamera-Lidar-Methoden mithalten kann, dabei aber eine höhere Robustheit und geringere Inferenzzeiten aufweist.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania