核心概念
EgoLifter ist ein neuartiges System, das automatisch Szenen aus egozentrisch erfassten Sensoren in eine vollständige Zerlegung individueller 3D-Objekte segmentieren kann.
摘要
EgoLifter ist ein neuartiges System, das gleichzeitig die 3D-Rekonstruktion und die offenlegung der 3D-Segmentierung für egozentrische Wahrnehmung löst. Es repräsentiert die Geometrie der Szene mithilfe von 3D-Gaußverteilungen und nutzt Segmentierungsmasken des Segment Anything Model (SAM), um eine flexible und anpassbare Definition von Objektinstanzen zu lernen, die frei von einer spezifischen Objekttaxonomie sind. Um die Herausforderung dynamischer Objekte in egozentrisch erfassten Videos zu bewältigen, entwickelt EgoLifter ein Modul zur Vorhersage von Transienzen, das dynamische Objekte aus der 3D-Rekonstruktion herausfiltert. Das Ergebnis ist eine vollautomatische Pipeline, die in der Lage ist, 3D-Objektinstanzen als Sammlungen von 3D-Gaußverteilungen zu rekonstruieren, die die gesamte Szene zusammensetzen. EgoLifter wurde auf dem Aria Digital Twin-Datensatz evaluiert und zeigt eine Spitzenleistung bei der offenlegung der 3D-Segmentierung aus natürlichen egozentrisch erfassten Eingaben.
統計資料
Die durchschnittliche erwachsene Person interagiert täglich mit Hunderten von verschiedenen Objekten Tausende von Malen.
Egozentrisch erfasste Videos enthalten eine enorme Menge an dynamischer Bewegung mit herausfordernden Verdeckungen.
引述
"EgoLifter ist das erste System, das offenlegung der 3D-Verständnisses aus natürlichen, dynamischen egozentrisch erfassten Videos ermöglicht."
"EgoLifter erreicht durch das Anheben der Ausgabe aktueller Bildgrundmodelle auf 3D-Gaußverteilungen eine starke Leistung bei der offenlegung der 3D-Objektsegmentierung, ohne dass teure Datenannotationen oder zusätzliches Training erforderlich sind."
"EgoLifter zeigt auf mehreren großen egozentrisch erfassten Videodatensätzen die Fähigkeit, eine 3D-Szene in eine Reihe von 3D-Objektinstanzen zu zerlegen, was vielversprechende Richtungen für das Verständnis egozentrisch erfasster Videos in AR/VR-Anwendungen eröffnet."