Core Concepts
本論文は、変換器ベースの3D人体姿勢推定の効率を大幅に向上させる新しい枠組みHourglass Tokenizer (HoT)を提案する。HoTは、冗長なフレームのトークンを動的に削除し、選択したトークンから元の時間解像度を復元することで、中間の変換器ブロックでわずかなトークンを維持し、モデルの効率を向上させる。
Abstract
本論文は、変換器ベースの3D人体姿勢推定の効率を向上させる新しい枠組みHourglass Tokenizer (HoT)を提案している。
まず、HoTは入力ビデオフレームのトークンを動的に削減する「トークン削減クラスタ(TPC)」モジュールを提案する。TPCは、高レベルの意味的多様性を持つ代表的なトークンを選択することで、ビデオの冗長性を削減する。次に、HoTは「トークン復元アテンション(TRA)」モジュールを提案し、選択したトークンから元の時間解像度を復元する。これにより、効率的な推論を可能にする。
HoTは既存の変換器ベース3D人体姿勢推定モデル(MHFormer、MixSTE、MotionBERT)に簡単に統合できる。実験の結果、HoTはこれらのモデルの計算コストを大幅に削減しながら、同等以上の推定精度を達成できることを示している。例えば、MotionBERTでは計算コストを51.8%削減しても精度を維持し、MixSTEでは計算コストを39.6%削減しつつ精度を0.2%しか下げていない。
Stats
人体姿勢推定の平均誤差(MPJPE)は40.9mmから41.0mmに低下した。
計算コスト(FLOPs)は277.25Gから167.52G(39.6%削減)に低下した。
推論速度(FPS)は10432FPSから15770FPS(51.2%向上)に上昇した。