Die vorgestellte Methode besteht aus zwei Hauptkomponenten: dem Räumlichen Modul und dem Bild-Beziehungs-Modul.
Das Räumliche Modul extrahiert die Körperhaltungsmerkmale, die in den Bildern selbst enthalten sind, indem es eine fensterbasierte Selbstaufmerksamkeit verwendet. Dieses Vorgehen ermöglicht es, relevante Bildausschnitte zu fokussieren und irrelevante Störungen zu reduzieren.
Das Bild-Beziehungs-Modul modelliert dann die zeitlichen Beziehungen zwischen den Videoframes sowie die 3D-Raumpositionsbeziehungen zwischen den entsprechenden Bildern. Dafür wird ein Standard-Transformer-Modell eingesetzt, um die globalen Beziehungen effizient zu erfassen.
Die Kombination dieser beiden Module ermöglicht es, die räumlichen, zeitlichen und 3D-Positionsmerkmale umfassend aus den Videodaten zu extrahieren und so eine präzisere 3D-Schätzung der menschlichen Körperhaltung zu erreichen.
Die Methode wurde auf dem Human3.6M-Datensatz evaluiert und erzielt state-of-the-art-Ergebnisse sowohl bei der 2D- als auch bei der 3D-Körperhaltungsschätzung. Insbesondere zeigt sich, dass die Länge der Videosequenz einen positiven Einfluss auf die Genauigkeit hat, da so die Beziehungen zwischen den Frames besser modelliert werden können.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Jianbin Jiao... às arxiv.org 03-26-2024
https://arxiv.org/pdf/2401.16700.pdfPerguntas Mais Profundas