Conceitos Básicos
動画クリップ内のオブジェクトの高レベルな振る舞いを推論することで、その動画クリップに対応する副詞タイプを認識することができる。
Resumo
本研究では、動画クリップ内のオブジェクトの振る舞いを推論することで副詞タイプを認識する新しいフレームワークを提案している。具体的には以下の3つのステップから成る:
- 抽出フェーズ:
- 動画クリップから物体検出を行い、各物体の動きに関する離散的な事実(オブジェクトの種類、速度、方向、位置など)を抽出する。
- これにより、MSR-VTT-ASPおよびActivityNet-ASPという2つの新しいデータセットを作成した。
- 推論フェーズ:
- 抽出された物体の振る舞いの事実を入力として、トランスフォーマーベースの手法を用いて物体の振る舞いの高レベルな要約ベクトルを生成する。
- また、シンボリックベースのベースラインも提案した。
- 予測フェーズ:
- 物体の振る舞いの要約ベクトルと動画クリップの行動タイプの情報を組み合わせて、SVMを用いて各副詞タイプと対義語の二値分類を行う。
- 複数の物体の予測結果を多数決で統合する。
実験の結果、提案手法はMSR-VTTおよびActivityNetデータセットにおいて、従来手法を上回る性能を示した。これは、物体の振る舞いを推論することが副詞タイプの認識に有効であることを示している。
Estatísticas
動画クリップ内の物体の速度が5から20の範囲にある場合、その物体の振る舞いは「副詞A」のクラスに属する可能性が高い。
動画クリップ内の物体の速度が5から20の範囲外の場合、その物体の振る舞いは「副詞Aの対義語」のクラスに属する可能性が高い。
動画クリップ内の物体の位置が画面の上部から下部に移動する場合、その物体の振る舞いは「下向き」のクラスに属する可能性が高い。
Citações
「オブジェクトの振る舞いに関する高レベルな概念を推論することで、副詞タイプを最も良く識別できる」
「エンドツーエンドのCNNモデルでは、多様なシーンにわたって一般化するのが難しい」
「人間は通常、オブジェクトの振る舞いに関する高レベルな概念を推論することで副詞タイプを容易に識別できる」