Belangrijkste concepten
Dieser Bericht bietet einen Überblick über den Wettbewerb, der im Rahmen des OpenSUN3D-Workshops zur offenen Vokabular-3D-Szenenverständnis auf der ICCV 2023 ausgetragen wurde. Das Ziel des Wettbewerbs war es, Methoden zur Segmentierung von Objektinstanzen in 3D-Szenen basierend auf freien Textbeschreibungen zu entwickeln.
Samenvatting
Der Bericht beschreibt den Wettbewerb zur offenen Vokabular-3D-Instanzsegmentierung, der im Rahmen des OpenSUN3D-Workshops auf der ICCV 2023 ausgetragen wurde.
Der Wettbewerb bestand aus zwei Phasen:
- Entwicklungsphase: Die Teilnehmer konnten den Trainingsdatensatz des ARKitScenes-Datensatzes nutzen und erhielten 5 annotierte Beispielszenen für die Entwicklung ihrer Methoden.
- Testphase: Die Teilnehmer erhielten 25 Testszenen, für die sie die Objektinstanzen basierend auf offenen Textbeschreibungen segmentieren mussten. Die Ergebnisse wurden auf einem Online-Benchmark ausgewertet.
Die Bewertung erfolgte anhand der Standard-Metriken für 3D-Instanzsegmentierung, insbesondere Average Precision (AP) bei IoU-Schwellen von 50% und 25%.
Die Beiträge der drei Gewinner-Teams werden im Detail beschrieben:
- PICO-MR: Verwendung von Grounding SAM mit bildbasierter Nicht-Maximum-Unterdrückung und einer Methode zum Zusammenführen der 2D-Masken in 3D.
- VinAI-3DIS: Kombination von 2D-Segmentierung, 3D-Projektion und CLIP-basierter Ranking-Methode.
- CRP: 2D-Detektion, CLIP-basiertes Ranking der Detektionen und Projektion in 3D.
Insgesamt zeigen die Ergebnisse, dass offene Vokabular-3D-Szenenverständnis-Aufgaben weiterhin eine große Herausforderung darstellen.
Statistieken
Die Leistung der eingereichten Methoden ist noch begrenzt, was die Herausforderungen des offenen Vokabular-3D-Szenenverständnisses verdeutlicht.
Citaten
Keine relevanten Zitate identifiziert.