Die Autoren präsentieren einen neuartigen Ansatz zur offenen Vokabular-3D-Instanzsegmentierung, der eine globale Konsistenz durch Mehrfachbeobachtung erzielt. Im Gegensatz zu bisherigen Methoden, die auf lokalen Metriken zwischen benachbarten Frames basieren, um zu entscheiden, ob Masken zusammengehören, führen die Autoren eine neue Metrik, die "Konsensrate der Ansichten", ein. Diese Metrik misst den Anteil der Frames, die zwei Masken als zusammengehörig einstufen.
Basierend auf dieser Konsensrate wird ein globaler Maskengraph erstellt, in dem jede Maske ein Knoten ist und Kanten zwischen Maskenpaaren mit hoher Konsensrate existieren. Durch ein iteratives Clustering der Masken mit hoher Konsensrate werden schließlich die 3D-Instanzen generiert. Zusätzlich wird eine Filterung von unter-segmentierten Masken durchgeführt.
Die Autoren zeigen in umfangreichen Experimenten auf öffentlich verfügbaren Datensätzen, dass ihr Ansatz den Stand der Technik bei der offenen Vokabular-3D-Instanzsegmentierung deutlich übertrifft, insbesondere bei der Segmentierung von feinen Details.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Mi Yan,Jiazh... kl. arxiv.org 04-11-2024
https://arxiv.org/pdf/2401.07745.pdfDybere Forespørgsler