Core Concepts
Durch die Nutzung der geometrischen Struktur von 3D-Punktwolken kann die Qualität der übertragenen VLM-Darstellungen (Vision-Language-Modell) verbessert werden, um das Zero-Shot-Verständnis von 3D-Punktwolken zu verbessern.
Abstract
Der Artikel stellt einen neuen Ansatz namens GeoZe vor, der der erste trainingsfreie Aggregationsansatz ist, der die geometrische Struktur von 3D-Punktwolken nutzt, um die Qualität der übertragenen VLM-Darstellungen zu verbessern.
GeoZe führt zunächst eine lokale Aggregation durch, bei der die VLM-Darstellungen benachbarter Punkte unter Berücksichtigung ihrer geometrischen Ähnlichkeit linear kombiniert werden. Anschließend erfolgt eine globale Aggregation, bei der die Superpoints (Cluster ähnlicher Punkte) basierend auf ihrer geometrischen und semantischen Ähnlichkeit aggregiert werden. Schließlich werden die aktualisierten Superpoint-Darstellungen wieder auf die einzelnen Punkte übertragen.
GeoZe wird auf drei Zero-Shot-Aufgaben evaluiert: Klassifikation, Teilsegmentierung und semantische Segmentierung. Auf verschiedenen synthetischen und realen Datensätzen, sowohl in Innen- als auch Außenräumen, erreicht GeoZe jeweils neue State-of-the-Art-Ergebnisse.
Stats
Die Punktwolke besteht aus N Punkten pi ∈ R³.
Für jeden Punkt pi wird eine VLM-Darstellung fi ∈ Rb und eine geometrische Darstellung gi ∈ Rd berechnet.
Die Punktwolke wird in ¯N Superpoints ¯pj ∈ R³ geclustert, mit assoziierten geometrischen ¯gj ∈ Rd und VLM-Darstellungen ¯fj ∈ Rb.
Für die globale Aggregation werden die Ähnlichkeiten der geometrischen ¯Sg und VLM-Darstellungen ¯Sv zwischen den Superpoints berechnet.
Quotes
"GeoZe leverages superpoints to aggregate local information from neighboring points and facilitates a global exchange among superpoints with similar geometric structures, promoting accuracy and computational efficiency for downstream tasks."
"GeoZe introduces the concept of VLM representation anchors. These anchors serve to correct potential offsets that may arise during the aggregation process, thereby preserving the integrity of the original representations."