Core Concepts
Der Kern der Arbeit ist die Entwicklung eines neuartigen Kalibrierungs- und Komplementärtransformers namens C2Former, um die Probleme der Modalitätsmisskalierung und der Fusionsungenauigkeit bei der RGB-Infrarot-Objekterkennung gleichzeitig zu lösen.
Abstract
Die Arbeit befasst sich mit der Objekterkennung auf sichtbaren (RGB) und Infrarot (IR) Bildern, die eine zunehmend wichtige Lösung für robuste Erkennung rund um die Uhr darstellt. Obwohl die Verwendung von IR-Bildern die Objektdetektoren in praktischen Anwendungen zuverlässiger und robuster macht, leiden die bestehenden Methoden immer noch unter Problemen der Modalitätsmisskalierung und der Fusionsungenauigkeit.
Um diese beiden Probleme gleichzeitig anzugehen, schlagen die Autoren einen neuartigen Kalibrierungs- und Komplementärtransformer namens C2Former vor. Der C2Former besteht aus zwei Modulen:
Inter-Modalitäts-Kreuzaufmerksamkeit (ICA): Dieses Modul nutzt den Kreuzaufmerksamkeitsmechanismus, um die kalibrierten und komplementären Merkmale durch das Erlernen der Kreuzaufmerksamkeitsbeziehung zwischen den RGB- und IR-Modalitäten zu erhalten.
Adaptive Merkmalsabtastung (AFS): Dieses Modul reduziert die Dimension der Merkmalskarten, um die hohen Rechenkosten des ICA-Moduls zu verringern. Es verwendet eine Versatzvorhersage, um eine adaptive Abtastung für die verschiedenen Modalitäten zu ermöglichen.
Die Autoren integrieren den C2Former in ein einphasiges und ein zweiphasiges Objekterkennungsmodell, um seine Effektivität und Vielseitigkeit zu evaluieren. Umfangreiche Experimente auf den Datensätzen DroneVehicle und KAIST zeigen, dass der C2Former die komplementären RGB-IR-Informationen effektiv nutzen und robuste Erkennungsergebnisse erzielen kann.
Stats
Die Verwendung von IR-Bildern macht Objektdetektoren in praktischen Anwendungen zuverlässiger und robuster.
Bestehende Methoden leiden unter Problemen der Modalitätsmisskalierung und der Fusionsungenauigkeit.
Der C2Former kann die komplementären RGB-IR-Informationen effektiv nutzen und robuste Erkennungsergebnisse erzielen.
Quotes
"Object detection on visible (RGB) and infrared (IR) images, as an emerging solution to facilitate robust detection for around-the-clock applications, has received extensive attention in recent years."
"However, existing methods still suffer from modality miscalibration and fusion imprecision problems."
"Extensive experiments on the DroneVehicle and KAIST RGB-IR datasets show that our method can fully utilize the RGB-IR complementary information and achieve robust detection results."