Die vorgestellte Methode besteht aus zwei Hauptkomponenten: dem Räumlichen Modul und dem Bild-Beziehungs-Modul.
Das Räumliche Modul extrahiert die Körperhaltungsmerkmale, die in den Bildern selbst enthalten sind, indem es eine fensterbasierte Selbstaufmerksamkeit verwendet. Dieses Vorgehen ermöglicht es, relevante Bildausschnitte zu fokussieren und irrelevante Störungen zu reduzieren.
Das Bild-Beziehungs-Modul modelliert dann die zeitlichen Beziehungen zwischen den Videoframes sowie die 3D-Raumpositionsbeziehungen zwischen den entsprechenden Bildern. Dafür wird ein Standard-Transformer-Modell eingesetzt, um die globalen Beziehungen effizient zu erfassen.
Die Kombination dieser beiden Module ermöglicht es, die räumlichen, zeitlichen und 3D-Positionsmerkmale umfassend aus den Videodaten zu extrahieren und so eine präzisere 3D-Schätzung der menschlichen Körperhaltung zu erreichen.
Die Methode wurde auf dem Human3.6M-Datensatz evaluiert und erzielt state-of-the-art-Ergebnisse sowohl bei der 2D- als auch bei der 3D-Körperhaltungsschätzung. Insbesondere zeigt sich, dass die Länge der Videosequenz einen positiven Einfluss auf die Genauigkeit hat, da so die Beziehungen zwischen den Frames besser modelliert werden können.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jianbin Jiao... alle arxiv.org 03-26-2024
https://arxiv.org/pdf/2401.16700.pdfDomande più approfondite