Der Artikel stellt ein neues Regressionsverfahren namens Decoupled Space-Time Aggregation (DSTA) für die videobasierte Schätzung menschlicher Körperhaltungen vor.
Bisherige Methoden zur Körperhaltungsschätzung basieren entweder auf Heatmaps oder auf Regression. Heatmap-basierte Methoden zeigen zwar eine überlegene Leistung, haben aber hohe Rechenkosten und Speicheranforderungen, was ihre Flexibilität und Echtzeit-Anwendung in Videoszenarien, insbesondere auf Edge-Geräten, einschränkt. Regressions-basierte Methoden sind dagegen effizienter, aber für Videosequenzen bisher weniger effektiv, da sie die zeitlichen Abhängigkeiten zwischen Frames nicht berücksichtigen.
DSTA überwindet diese Einschränkungen, indem es die räumlichen Zusammenhänge zwischen benachbarten Gelenken und die zeitlichen Abhängigkeiten jedes einzelnen Gelenks separat modelliert. Dazu verwendet es ein neuartiges Joint-zentriertes Feature-Decoder-Modul (JFD), um für jedes Gelenk ein eigenes Feature-Token zu extrahieren, und ein Space-Time Decoupling-Modul (STD), um die räumlichen und zeitlichen Abhängigkeiten effizient und flexibel zu erfassen.
Die umfangreichen Experimente zeigen, dass DSTA die Leistung früherer regressions-basierter Methoden deutlich übertrifft und mit dem aktuellen Stand der Technik bei heatmap-basierten Methoden für Videosequenzen vergleichbar ist oder sogar übertrifft. Gleichzeitig bietet DSTA deutlich geringere Rechenkosten und Speicheranforderungen, was es für Echtzeitanwendungen und die Implementierung auf Edge-Geräten besonders geeignet macht.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jijie He,Wen... at arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19926.pdfDeeper Inquiries