Effiziente Verarbeitung und Analyse von Inhalten zur Gewinnung von Erkenntnissen: Benchmark-Datensätze und ein robuster Baseline-Ansatz für das Matching von Punktwolken und Texten
Dieser Artikel präsentiert und untersucht eine neue instanzbasierte Retrieval-Aufgabe: Punktwolken-Text-Matching (PTM), die darauf abzielt, die genaue crossmodale Instanz zu finden, die einer gegebenen Punktwolken-Abfrage oder Textabfrage entspricht. Um diese Herausforderung anzugehen, konstruieren wir drei neue PTM-Benchmark-Datensätze und schlagen einen robusten PTM-Baseline-Ansatz namens RoMa vor, der aus zwei Modulen besteht: einem Dual Attention Perception-Modul (DAP) und einem Robust Negative Contrastive Learning-Modul (RNCL). DAP nutzt Token-basierte und Merkmals-basierte Aufmerksamkeit, um nützliche lokale und globale Merkmale adaptiv zu fokussieren und in gemeinsame Darstellungen zu aggregieren, um die negativen Auswirkungen von Rauschen und Mehrdeutigkeit zu reduzieren. RNCL teilt negative Paare in saubere und verrauschte Teilmengen ein und weist ihnen unterschiedliche Optimierungsrichtungen zu, um die Robustheit gegenüber verrauschter Korrespondenz zu erhöhen.