Die Autoren identifizieren, dass unterschiedliche Verteilungen zwischen spärlichen RGB-Merkmalen und dichten TSDF-Merkmalen in 3D-Räumen zu inkonsistenten Vorhersagen führen können. Um diese Inkonsistenz zu mildern, schlagen sie ein zweistufiges Netzwerk mit einem 3D-RGB-Merkmalsvervollständigungsmodul (FCM) vor, das 3D-RGB-Merkmale von dünn zu dicht transformiert. Außerdem führen sie eine neuartige klassenspezifische Entropieverlustfunktion ein, um Inkonsistenz zu bestrafen.
In der ersten Stufe extrahieren sie TSDF- und RGB-Merkmale in 3D-Räumen und führen eine mehrstufige Fusion durch. Das FCM-Modul transformiert dann die spärlichen RGB-Merkmale in dichte Merkmale, indem es für verdeckte Bereiche sinnvolle Merkmale basierend auf sichtbaren Oberflächen zuweist. In der zweiten Stufe verwendet das Netzwerk die verfeinerten Merkmale, um die endgültigen semantischen Szenenergänzungsergebnisse zu produzieren.
Die Experimente zeigen, dass die vorgeschlagene Methode den Stand der Technik unter Methoden ohne zusätzliche Daten übertrifft. Insbesondere können die Methoden konsistentere Ergebnisse für schwierige Klassen wie Stühle, Sofas und Wände erzielen. Die Autoren führen auch eine numerische Analyse der Klassenkonsistenz durch und zeigen, dass ihre Methoden die Vorhersagewahrscheinlichkeiten in Richtung der Extreme (0 oder 1) verschieben, was auf konsistentere Ergebnisse hindeutet.
翻譯成其他語言
從原文內容
arxiv.org
深入探究