Die Arbeit präsentiert einen neuartigen hierarchischen visuell-kinematischen Fusionsrahmen für die Schätzung des Szenenfluss, der die komplementären Informationen von RGB, LiDAR und Event-Kameras ausnutzt.
In der visuellen Luminanzfusion werden die relative Luminanz der Event-Kamera und die absolute Luminanz der RGB-Kamera fusioniert, um eine hohe dynamische Bildgebung zu erreichen. In der visuellen Strukturfusion werden die lokalen Grenzen der Event-Kamera in die globale Form des LiDAR integriert, um die physikalische Strukturintegrität zu verbessern. In der kinematischen Korrelationsfusion werden die räumlich-dichten Korrelationsmerkmale von RGB, die zeitlich-dichten Korrelationsmerkmale von Event und die räumlich-zeitlich-spärlichen Korrelationsmerkmale von LiDAR fusioniert, um die 3D-Bewegungskontinuität zu gewährleisten.
Die hierarchische visuelle-kinematische Fusion kann die multimodalen komplementären Informationen von der visuellen Ebene bis zur kinematischen Ebene explizit lernen und den Szenenfluss schrittweise verbessern. Umfangreiche Experimente auf Tages- und Nachtszenen zeigen, dass der vorgeschlagene Ansatz den Stand der Technik übertrifft.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Hanyu Zhou,Y... : arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07432.pdfDaha Derin Sorular