Die Arbeit präsentiert einen neuartigen hierarchischen visuell-kinematischen Fusionsrahmen für die Schätzung des Szenenfluss, der die komplementären Informationen von RGB, LiDAR und Event-Kameras ausnutzt.
In der visuellen Luminanzfusion werden die relative Luminanz der Event-Kamera und die absolute Luminanz der RGB-Kamera fusioniert, um eine hohe dynamische Bildgebung zu erreichen. In der visuellen Strukturfusion werden die lokalen Grenzen der Event-Kamera in die globale Form des LiDAR integriert, um die physikalische Strukturintegrität zu verbessern. In der kinematischen Korrelationsfusion werden die räumlich-dichten Korrelationsmerkmale von RGB, die zeitlich-dichten Korrelationsmerkmale von Event und die räumlich-zeitlich-spärlichen Korrelationsmerkmale von LiDAR fusioniert, um die 3D-Bewegungskontinuität zu gewährleisten.
Die hierarchische visuelle-kinematische Fusion kann die multimodalen komplementären Informationen von der visuellen Ebene bis zur kinematischen Ebene explizit lernen und den Szenenfluss schrittweise verbessern. Umfangreiche Experimente auf Tages- und Nachtszenen zeigen, dass der vorgeschlagene Ansatz den Stand der Technik übertrifft.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問