EgoLifter ist ein neuartiges System, das gleichzeitig die 3D-Rekonstruktion und die offenlegung der 3D-Segmentierung für egozentrische Wahrnehmung löst. Es repräsentiert die Geometrie der Szene mithilfe von 3D-Gaußverteilungen und nutzt Segmentierungsmasken des Segment Anything Model (SAM), um eine flexible und anpassbare Definition von Objektinstanzen zu lernen, die frei von einer spezifischen Objekttaxonomie sind. Um die Herausforderung dynamischer Objekte in egozentrisch erfassten Videos zu bewältigen, entwickelt EgoLifter ein Modul zur Vorhersage von Transienzen, das dynamische Objekte aus der 3D-Rekonstruktion herausfiltert. Das Ergebnis ist eine vollautomatische Pipeline, die in der Lage ist, 3D-Objektinstanzen als Sammlungen von 3D-Gaußverteilungen zu rekonstruieren, die die gesamte Szene zusammensetzen. EgoLifter wurde auf dem Aria Digital Twin-Datensatz evaluiert und zeigt eine Spitzenleistung bei der offenlegung der 3D-Segmentierung aus natürlichen egozentrisch erfassten Eingaben.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Qiao Gu,Zhao... pada arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18118.pdfPertanyaan yang Lebih Dalam