Die Autoren präsentieren TracksTo4D, einen neuartigen Deep-Learning-basierten Ansatz zur Rekonstruktion von 3D-Strukturen und Kamerabewegungen aus dynamischen Videoinhalten. Im Gegensatz zu bisherigen Methoden, die unrealistische Annahmen treffen oder lange Optimierungszeiten benötigen, nutzt TracksTo4D lediglich die 2D-Punktverfolgungen aus den Videos, ohne 3D-Supervisionsdaten zu verwenden.
Der Schlüssel ist ein äquivariantes neuronales Netzwerkdesign, das die Symmetrien der Punktverfolgungen direkt berücksichtigt. TracksTo4D lernt, die starren und nicht-starren Anteile der Szene zu identifizieren und vorherzusagen, indem es eine lineare Kombination von Basis-3D-Strukturen verwendet.
Die Experimente zeigen, dass TracksTo4D gut auf ungesehene Videos generalisiert und vergleichbare Ergebnisse wie der Stand der Technik liefert, aber deutlich schnellere Inferenzzeiten aufweist. Die Autoren demonstrieren die Leistungsfähigkeit des Ansatzes auf einem Testdatensatz von Hunden und Katzen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yoni Kasten,... at arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.07097.pdfDeeper Inquiries