本研究は、複雑で混沌とした状況下での時空間アクション検出タスクに取り組んでいる。従来の方法では、特徴抽出の質が低く、モデルの性能に限界があった。
そこで本研究では以下の2つの主要な貢献を行った:
SFMViTモデル: SlowFastとViTの特徴抽出能力を融合したデュアルストリームのネットワークを提案した。SlowFastは時間的特徴を、ViTは複雑な状況下での空間的特徴を捉えることができ、両者の長所を活かすことで、全体としての時空間特徴モデリング能力が向上した。
Confidence Pruning Strategy: 検出器によって生成される不要なアンカーを効率的に削減する手法を導入した。アンカーの数を最適化することで、モデルの精度と効率を高めることができた。
実験の結果、提案手法であるSFMViTは、Chaotic World データセットにおいて従来手法を大きく上回る26.62%のmAPを達成し、SOTA性能を示した。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jiaying Lin,... alle arxiv.org 04-26-2024
https://arxiv.org/pdf/2404.16609.pdfDomande più approfondite