Core Concepts
本研究では、注意機構を使わずに状態空間モデルを活用することで、ヒューマンモーション理解タスクにおいて高速で効率的な処理を実現するアーキテクチャ「HumMUSS」を提案する。HumMUSSは、従来のTransformer系モデルと比べて、長シーケンスの処理が高速で、フレームレートの変化にも柔軟に対応できる。
Abstract
本研究では、ヒューマンモーション理解のための新しいアーキテクチャ「HumMUSS」を提案している。HumMUSSは、注意機構を使わずに状態空間モデルを活用することで、高速で効率的な処理を実現する。
具体的には以下の特徴がある:
Transformerベースのモデルと比べて、長シーケンスの処理が高速で、メモリ効率も良い。例えば、243フレームの処理では、MotionBERTに比べて3.8倍メモリ効率が良く、11.1倍高速である。
フレームレートの変化にも柔軟に対応できる。Transformerベースのモデルはフレームレートの変化に弱いが、HumMUSSはフレームレートの変化に強い。
3Dポーズ推定、メッシュ推定、アクション認識などの様々なタスクで、Transformerベースのモデルと同等以上の性能を達成する。
HumMUSSは、リアルタイムアプリケーションなどで重要となる高速で効率的なモーション理解を実現する有望なアーキテクチャである。
Stats
243フレームの処理では、MotionBERTに比べて3.8倍メモリ効率が良く、11.1倍高速である。
フレームレートの変化に伴う3Dポーズ推定精度の低下は、HumMUSSの方がMotionBERTよりも小さい。
Quotes
"HumMUSS not only matches the performance of transformer-based models in various motion understanding tasks but also brings added benefits like adaptability to different video frame rates and enhanced training speed when working with longer sequences of keypoints."
"HumMUSS operates as a stateful recurrent model during sequential inference, requiring only the current frame and the state that summarizes the past frames. This substantially boosts the inference speed and efficiency of HumMUSS relative to MotionBERT [109]."