Die Arbeit präsentiert einen neuartigen hierarchischen visuell-kinematischen Fusionsrahmen für die Schätzung des Szenenfluss, der die komplementären Informationen von RGB, LiDAR und Event-Kameras ausnutzt.
In der visuellen Luminanzfusion werden die relative Luminanz der Event-Kamera und die absolute Luminanz der RGB-Kamera fusioniert, um eine hohe dynamische Bildgebung zu erreichen. In der visuellen Strukturfusion werden die lokalen Grenzen der Event-Kamera in die globale Form des LiDAR integriert, um die physikalische Strukturintegrität zu verbessern. In der kinematischen Korrelationsfusion werden die räumlich-dichten Korrelationsmerkmale von RGB, die zeitlich-dichten Korrelationsmerkmale von Event und die räumlich-zeitlich-spärlichen Korrelationsmerkmale von LiDAR fusioniert, um die 3D-Bewegungskontinuität zu gewährleisten.
Die hierarchische visuelle-kinematische Fusion kann die multimodalen komplementären Informationen von der visuellen Ebene bis zur kinematischen Ebene explizit lernen und den Szenenfluss schrittweise verbessern. Umfangreiche Experimente auf Tages- und Nachtszenen zeigen, dass der vorgeschlagene Ansatz den Stand der Technik übertrifft.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Hanyu Zhou,Y... lúc arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07432.pdfYêu cầu sâu hơn