EgoLifter ist ein neuartiges System, das gleichzeitig die 3D-Rekonstruktion und die offenlegung der 3D-Segmentierung für egozentrische Wahrnehmung löst. Es repräsentiert die Geometrie der Szene mithilfe von 3D-Gaußverteilungen und nutzt Segmentierungsmasken des Segment Anything Model (SAM), um eine flexible und anpassbare Definition von Objektinstanzen zu lernen, die frei von einer spezifischen Objekttaxonomie sind. Um die Herausforderung dynamischer Objekte in egozentrisch erfassten Videos zu bewältigen, entwickelt EgoLifter ein Modul zur Vorhersage von Transienzen, das dynamische Objekte aus der 3D-Rekonstruktion herausfiltert. Das Ergebnis ist eine vollautomatische Pipeline, die in der Lage ist, 3D-Objektinstanzen als Sammlungen von 3D-Gaußverteilungen zu rekonstruieren, die die gesamte Szene zusammensetzen. EgoLifter wurde auf dem Aria Digital Twin-Datensatz evaluiert und zeigt eine Spitzenleistung bei der offenlegung der 3D-Segmentierung aus natürlichen egozentrisch erfassten Eingaben.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Qiao Gu,Zhao... at arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18118.pdfDeeper Inquiries