Core Concepts
Wir entwickeln einen lernbasierten, etikettenfreien Algorithmus zur instanzbasierten Segmentierung von Outdoor-LiDAR-3D-Punktwolken. Unser Verfahren nutzt dichte, registrierte 3D- und RGB-Daten, um dichte 3D-Instanzmaskenvorschläge zu erstellen, indem es ein merkmalsbewusstes Netzwerk konstruiert und zerschneidet. Unser Algorithmus profitiert zusätzlich von einem selbsttrainierten Verfeinerungsschritt, der keine Referenzannotationen erfordert, sondern die auf unüberwachte Weise erhaltenen Vorschläge anpasst und verfeinert.
Abstract
Unser Algorithmus zur instanzbasierten Segmentierung von Outdoor-LiDAR-3D-Punktwolken besteht aus zwei Hauptkomponenten:
Generierung von Instanzmaskenvorschlägen:
Wir verbinden benachbarte 3D-Punkte in einen gewichteten Proxy-Graphen und zerschneiden diesen Graphen, um Gruppen von Punkten als Instanzen zu isolieren.
Zur Modellierung der Wahrscheinlichkeit, dass zwei verknüpfte Punkte zur selben Instanz gehören, gewichten wir den Graphen anhand einer Ähnlichkeitsfunktion, die multimodale punktweise Darstellungen integriert.
Wir verwenden selbstüberwachte TARL-Punktdarstellungen und DINOv2-Bilddarstellungen, um die Ähnlichkeit zwischen Punkten zu berechnen.
Um die Skalierbarkeit auf große Szenen zu gewährleisten, führen wir die Instanzgenerierung in überlappenden lokalen Punktchunks durch und entwickeln einen Algorithmus zum Zusammenführen der Vorhersagen.
Selbsttrainierte Verfeinerung der Instanzmasken:
Die durch den Graphenschnitt erhaltenen Instanzmasken können Rauschen, Unter- oder Übersegmentierung aufweisen.
Statt sie als endgültige Instanzen zu behandeln, verfeinern wir diese anfänglichen Vorhersagen mit Hilfe eines selbsttrainierten neuronalen Netzwerks.
Unser selbsttrainiertes Netzwerk nimmt Punktkoordinaten als Eingabe und produziert pro Punkt Instanzmasken und Konfidenzwerte als Ausgabe.
Wir optimieren eine gewichtete Kombination aus Dice- und Kreuzentropie-Verlusten, um das Netzwerk zu trainieren.
Unsere Experimente auf dem SemanticKITTI-Benchmark zeigen, dass unser Ansatz die Leistung unüberwachter Basislinien deutlich übertrifft und mit überwachten Methoden vergleichbare Ergebnisse erzielt, ohne manuelle Annotationen zu benötigen.
Stats
Die Punktwolke umfasst durchschnittlich 60.000 Punkte pro Chunk.
Wir verwenden eine Voxelgröße von 35 cm für eine gute Balance zwischen Rechenaufwand und Leistung.
Quotes
Keine relevanten Zitate gefunden.