本研究の目的は、ビデオ映像から人体の筋肉群の活性化を推定する新しいタスクに取り組むことである。従来の研究は、着用型センサーを使用した筋電図データに基づいていたが、本研究では、より広範囲の環境下で撮影されたビデオ映像を使用する。
具体的には以下の3点が主な貢献である:
MuscleMapデータセットの構築: 135種類の運動を含む大規模なデータセットを提供し、20の筋肉群の活性化を2値で注釈付けている。これにより、野外での筋肉群の活性化推定タスクの研究を促進する。
既存手法の限界の明確化: CNN、GCN、transformer系の手法などを適用したが、新しい運動タイプに対する一般化性が課題であることを示した。
TRANSM3Eの提案: 動画と骨格データの特徴融合と知識蒸留を行う新しいアーキテクチャを提案した。Multi-Classification Tokens (MCT)、Multi-Classification Tokens Knowledge Distillation (MCTKD)、Multi-Classification Tokens Fusion (MCTF)の3つの要素を組み合わせることで、既存手法を大幅に上回る性能を実現した。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések