Die Studie befasst sich mit der Aufgabe der 3D-Mehrobjekt-Wiedererkennung aus begehbaren Touren. Ein Agent erhält zwei Touren durch eine Umgebung (z.B. eine Wohnung) mit unterschiedlichen Layouts (z.B. Möbelanordnungen). Seine Aufgabe ist es, Objekte in 3D zu erkennen und wiederzuerkennen - z.B. ein "Sofa", das von Ort A nach B verschoben wurde, einen neuen "Stuhl" im zweiten Layout an Ort C oder eine "Lampe" von Ort D im ersten Layout, die im zweiten fehlt.
Um diese Aufgabe zu unterstützen, erstellen die Autoren eine automatisierte Infrastruktur, um gekoppelte egozentrische Touren von Ausgangs- und modifizierten Layouts in der Habitat-Simulation unter Verwendung von Matterport3D-Szenen, YCB- und Google-gescannten Objekten zu generieren. Sie präsentieren 3D Semantic MapNet (3D-SMNet) - ein zweistufiges Wiedererkennungsmodell bestehend aus (1) einem 3D-Objektdetektor, der auf RGB-D-Videos mit bekannter Pose arbeitet, und (2) einem differenzierbaren Objektabgleichmodul, das die Korrespondenzschätzung zwischen zwei Sätzen von 3D-Begrenzungsboxen löst.
3D-SMNet erstellt objektbasierte Karten jedes Layouts und verwendet dann einen differenzierbaren Matcher, um Objekte über die Touren hinweg wiederzuerkennen. Nach dem Training von 3D-SMNet auf den generierten Episoden zeigen die Autoren Nullstellen-Transfer auf reale Umordnungsszenarien in den Replica-, Active Vision- und RIO-Umgebungen. Auf allen Datensätzen übertrifft 3D-SMNet konkurrierende Baselines. Darüber hinaus zeigen sie, dass das gemeinsame Training auf realen und generierten Episoden zu erheblichen Verbesserungen gegenüber dem Training auf reinen Realdaten führen kann.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Vincent Cart... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13190.pdfDeeper Inquiries