Der Artikel präsentiert WHAC, ein neuartiges Verfahren zur gemeinsamen Schätzung von menschlichen Posen und Kamerabewegungen im weltweiten Koordinatensystem aus Monovideos.
Zunächst wird beobachtet, dass bestehende Methoden zur Schätzung menschlicher Posen in Kamerakoordinaten die absolute Tiefe der Menschen bereits implizit lernen können. Außerdem dienen die Bewegungen der Menschen als starke Hinweise auf ihre absolute Position im Raum. WHAC nutzt diese Erkenntnisse, um die Bewegungen von Menschen und Kameras gemeinsam zu schätzen, ohne auf traditionelle Optimierungsverfahren angewiesen zu sein.
Darüber hinaus wird ein neuer synthetischer Datensatz, WHAC-A-Mole, eingeführt. Dieser enthält präzise annotierte Menschen und Kameras sowie eine Vielzahl interaktiver menschlicher Bewegungen und realistischer Kamerabewegungen. Umfangreiche Experimente auf Standard- und neu etablierten Benchmarks zeigen die Überlegenheit und Effektivität des WHAC-Verfahrens.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Wanqi Yin,Zh... a las arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12959.pdfConsultas más profundas