Der Dual Perspective Fusion Transformer (DPFT) ist ein neuartiger Ansatz zur Fusion von Kamera- und Radardaten für die 3D-Objekterkennung. Er adressiert die Herausforderungen, die durch die unterschiedlichen Datenformate, Dimensionalitäten und Auflösungen der beiden Sensoren entstehen.
Der DPFT verwendet rohe Radardaten (Radar-Würfel) anstelle von Punktwolken, um Informationsverluste zu vermeiden. Die Radardaten werden in zwei Perspektiven projiziert - parallel zur Kameraebene und senkrecht dazu (Bird's Eye View) - um die komplementären Sensoreigenschaften optimal zu nutzen.
Durch die direkte Abfrage fusionierter Merkmale aus den einzelnen Eingaben, ohne ein gemeinsames Merkmalssystem zu benötigen, kann der DPFT die Vorteile beider Sensoren effizient kombinieren. Die Experimente zeigen, dass der DPFT den aktuellen Stand der Technik auf dem herausfordernden K-Radar-Datensatz übertrifft und sogar mit Kamera-Lidar-Methoden mithalten kann, dabei aber eine höhere Robustheit und geringere Inferenzzeiten aufweist.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Felix Fent,A... às arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03015.pdfPerguntas Mais Profundas