Die Autoren präsentieren einen neuartigen Ansatz zur offenen Vokabular-3D-Instanzsegmentierung, der eine globale Konsistenz durch Mehrfachbeobachtung erzielt. Im Gegensatz zu bisherigen Methoden, die auf lokalen Metriken zwischen benachbarten Frames basieren, um zu entscheiden, ob Masken zusammengehören, führen die Autoren eine neue Metrik, die "Konsensrate der Ansichten", ein. Diese Metrik misst den Anteil der Frames, die zwei Masken als zusammengehörig einstufen.
Basierend auf dieser Konsensrate wird ein globaler Maskengraph erstellt, in dem jede Maske ein Knoten ist und Kanten zwischen Maskenpaaren mit hoher Konsensrate existieren. Durch ein iteratives Clustering der Masken mit hoher Konsensrate werden schließlich die 3D-Instanzen generiert. Zusätzlich wird eine Filterung von unter-segmentierten Masken durchgeführt.
Die Autoren zeigen in umfangreichen Experimenten auf öffentlich verfügbaren Datensätzen, dass ihr Ansatz den Stand der Technik bei der offenen Vokabular-3D-Instanzsegmentierung deutlich übertrifft, insbesondere bei der Segmentierung von feinen Details.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Mi Yan,Jiazh... klokken arxiv.org 04-11-2024
https://arxiv.org/pdf/2401.07745.pdfDypere Spørsmål