本研究では、Time Interval Machine (TIM)と呼ばれる新しいアーキテクチャを提案している。TIMは、長尺の動画入力に対して、視覚と聴覚の両モダリティにわたる時間間隔を明示的にモデル化することで、アクション認識の性能を向上させる。
具体的には以下の特徴がある:
実験では、EPIC-KITCHENS、EPIC-SOUNDS、AVE、Perception Testなどの視聴覚アクション認識データセットで、従来手法を上回る高い性能を達成している。特に、EPIC-KITCHENS-100では、視覚アクション認識で2.9%、聴覚アクション認識で1.4%の精度向上を示している。また、アクション検出タスクでも強い性能を発揮している。
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Jacob Chalk,... às arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05559.pdfPerguntas Mais Profundas