Gaga rekonstruiert und segmentiert 3D-Szenen, indem es inkonsistente 2D-Masken, die von Nullshot-Segmentierungsmodellen vorhergesagt werden, effektiv nutzt. Durch die Verwendung einer 3D-bewussten Speicherbank können Gaga-Masken über verschiedene Ansichten hinweg konsistent zugeordnet werden, was zu präziseren 3D-Segmentierungsergebnissen führt.
Wir führen die neue Aufgabe der 3D-Dichtbeschriftung in Außenszenen ein, die LiDAR-Punktwolken und panoramische RGB-Bilder als Eingabe verwendet und eine Reihe von Objektboxen mit Beschriftungen als Ausgabe erwartet. Um diese Aufgabe zu bewältigen, schlagen wir das TOD3Cap-Netzwerk vor, das die BEV-Darstellung nutzt, um Objektboxvorschläge zu generieren, und Relation Q-Former mit LLaMA-Adapter integriert, um für diese Objekte aussagekräftige Beschriftungen zu generieren. Wir stellen auch den TOD3Cap-Datensatz vor, den größten uns bekannten für 3D-Dichtbeschriftung in Außenszenen, der 2,3 Millionen Beschreibungen von 64.300 Außenobjekten aus 850 Szenen in nuScenes enthält.
Das vorgeschlagene OctreeOcc-Verfahren nutzt die Octree-Darstellung, um die 3D-Szene adaptiv mit variabler Granularität zu erfassen, um die Genauigkeit der Belegungsvorhersage zu verbessern und den Rechenaufwand im Vergleich zu dichten Gitterdarstellungen zu reduzieren.
3DIML ist ein effizientes Verfahren zum Lernen einer 3D-konsistenten Instanzensegmentierung aus einer Sequenz von RGB-Bildern mit Pose-Informationen. Es umfasst zwei Phasen: InstanceMap zur Erzeugung konsistenter Pseudolabel-Masken und InstanceLift zum Trainieren eines neuronalen Labelfelds, das Lücken schließt und Mehrdeutigkeiten auflöst. Zusätzlich ermöglicht InstanceLoc eine schnelle Lokalisierung von Instanzen in neuen Ansichten.
Unser Ansatz eliminiert die Notwendigkeit umfangreicher Annotationen und vordefinierter Vokabulare für 3D-visuelle Verankerung, indem er eine visuelle Programmierung nutzt, die mit Großsprachmodellen zusammenarbeitet.
Dieser Bericht bietet einen Überblick über den Wettbewerb, der im Rahmen des OpenSUN3D-Workshops zur offenen Vokabular-3D-Szenenverständnis auf der ICCV 2023 ausgetragen wurde. Das Ziel des Wettbewerbs war es, Methoden zur Segmentierung von Objektinstanzen in 3D-Szenen basierend auf freien Textbeschreibungen zu entwickeln.
Agent3D-Zero ist ein innovativer 3D-bewusster Agenten-Rahmen, der das Verständnis von 3D-Szenen in einer Zero-Shot-Weise ermöglicht, indem er ein Großes Visuelles Sprachmodell (VLM) aktiv nutzt, um informative Ansichten auszuwählen und zu analysieren.
Unser Ansatz GroupContrast kombiniert Segmentgruppierung und semantisch bewusste kontrastive Repräsentationslernung, um die semantische Kohärenz in 3D-Punktwolken zu verbessern und die Probleme des "semantischen Konflikts" zu lösen.
3D-Dichtbeschriftung zielt darauf ab, natürlichsprachliche Beschreibungen für Objekte in 3D-Szenen zu generieren, indem 3D-Punktwolken-Daten analysiert werden.