Główne pojęcia
長尺の動画入力に対して、視覚と聴覚の両モダリティにわたる時間間隔を明示的にモデル化することで、アクション認識の性能を向上させる。
Streszczenie
本研究では、Time Interval Machine (TIM)と呼ばれる新しいアーキテクチャを提案している。TIMは、長尺の動画入力に対して、視覚と聴覚の両モダリティにわたる時間間隔を明示的にモデル化することで、アクション認識の性能を向上させる。
具体的には以下の特徴がある:
- 入力特徴にモダリティ情報と時間間隔情報を付与し、トランスフォーマーエンコーダに入力する
- 時間間隔を表現するためのTime Interval MLPを導入し、時間間隔の位置と長さを効果的にエンコーディングする
- 時間間隔を指定するクエリを用いて、両モダリティにわたるアクションを同時に認識する
- 時間間隔の情報を活用することで、アクション検出タスクにも適用可能
実験では、EPIC-KITCHENS、EPIC-SOUNDS、AVE、Perception Testなどの視聴覚アクション認識データセットで、従来手法を上回る高い性能を達成している。特に、EPIC-KITCHENS-100では、視覚アクション認識で2.9%、聴覚アクション認識で1.4%の精度向上を示している。また、アクション検出タスクでも強い性能を発揮している。
Statystyki
長尺の動画入力に対して、視覚と聴覚の両モダリティにわたるアクションが短時間で連続して発生する
視覚と聴覚のアクションの時間間隔や言語ラベルが異なる場合がある
Cytaty
"長尺の動画には視聴覚イベントが素早く連続して発生し、両モダリティの時間的範囲や言語ラベルが異なることが分かっている。"
"従来手法は通常、アクションの正確な時間範囲のみを利用しているが、その周辺のコンテキストを活用することが重要である。"