AGILE3D ist ein effizienter, aufmerksamkeitsbasierter Ansatz, der (1) die gleichzeitige Segmentierung mehrerer 3D-Objekte unterstützt, (2) genauere Segmentierungsmasken mit weniger Nutzerklicks liefert und (3) eine schnellere Inferenz bietet.
Die Verwendung von radius-normalisierten Abständen und Richtungsvektoren als zusätzliche lokale Nachbarschaftsmerkmale in Punktwolkenklassifizierungsmodellen wie PointNeXt verbessert die Klassifizierungsgenauigkeit, insbesondere auf realen Datensätzen.
Wir stellen zwei effiziente Methoden, Seg-NN und Seg-PN, vor, die die Abhängigkeit von großen Datensätzen für die 3D-Punktwolkensegmentierung reduzieren. Seg-NN ist ein trainingsfreier, nicht-parametrischer Ansatz, der vergleichbare Leistung wie bestehende parametrische Modelle erzielt, aber deutlich effizienter ist. Seg-PN ist eine parametrische Variante, die durch eine leichtgewichtige Modul-Optimierung die Leistung weiter verbessert.
Lift3D überträgt beliebige 2D-Sichtmodelle auf 3D-Vorhersagen, die über verschiedene Ansichten hinweg konsistent sind, ohne zusätzliches Training für spezifische Aufgaben oder Szenen.
DOrA nutzt Großsprachmodelle, um eine Referenzreihenfolge von Ankergegenständen aus der natürlichen Beschreibung abzuleiten, um den Zielgegenstand in einer 3D-Punktwolkenszene effizient zu lokalisieren.
Eine neuartige Pseudo-Labeling-Methode namens SAFormer, die den Mean-Teacher-Ansatz und simulierte Samples nutzt, um präzise Pseudo-Labels für überlappende Bereiche zu generieren. Darüber hinaus verwendet SAFormer eine Local-Global Aware Attention, um lokale Strukturen und globale Beziehungen effektiv zu modellieren.
Durch die Einführung von adaptiven Rezeptionsfeldern und adaptiven Beziehungen können Sparse-CNN-Modelle die Leistung von Punkt-Transformer-Modellen in der 3D-semantischen Segmentierung übertreffen, ohne dabei Effizienz einzubüßen.
Unser TTT-KD-Algorithmus ist das erste Test-Zeit-Trainingsverfahren für die Aufgabe der 3D-semantischen Segmentierung, das Wissenstransfer von Grundlagenmodellen als selbstüberwachtes Hilfsziel nutzt, um die Netzwerkgewichte individuell für jede Testprobe anzupassen, sobald sie auftritt.
Eine stochastische spektrale Abtaststrategie, die hochfrequente Knoten im Korrespondenzgraphen bevorzugt, ermöglicht eine deutliche Beschleunigung der Maximal-Clique-basierten Registrierung, ohne die Leistung wesentlich zu beeinträchtigen.