Der Artikel präsentiert den Sanduhr-Tokenizer (HoT), ein steckbares Rahmenwerk zum Kürzen und Wiederherstellen von Tokens, das die Effizienz von Transformer-basierten 3D-Körperhaltungsschätzungen aus Videos erhöht, ohne die Genauigkeit zu beeinträchtigen.
HoT beginnt mit dem Kürzen der Körperhaltungs-Tokens redundanter Frames und endet mit der Wiederherstellung der vollen Länge, was zu wenigen Tokens in den mittleren Transformer-Blöcken führt und so die Modelleffizienz verbessert.
Dafür wird ein Token-Kürzungs-Cluster (TPC) vorgeschlagen, der dynamisch repräsentative Tokens mit hoher semantischer Vielfalt auswählt, um die Redundanz von Videoframes zu eliminieren. Außerdem wird eine leichtgewichtige Token-Wiederherstellungs-Aufmerksamkeit (TRA) entwickelt, um die detaillierten raum-zeitlichen Informationen auf Basis der ausgewählten Tokens wiederherzustellen.
Umfangreiche Experimente auf zwei Benchmark-Datensätzen zeigen, dass die Methode sowohl hohe Effizienz als auch Schätzgenauigkeit erreichen kann. Zum Beispiel kann HoT bei Anwendung auf MotionBERT und MixSTE den FLOPs-Verbrauch auf dem Human3.6M-Datensatz um fast 50% bzw. 40% senken, ohne bzw. mit nur 0,2% Genauigkeitsverlust.
翻譯成其他語言
從原文內容
arxiv.org
深入探究