核心概念
一人称ビデオから、アクション開始時に接触するオブジェクトの位置を予測する。
要約
本研究では、一人称ビデオから、将来のアクション開始時に接触するオブジェクトの位置を予測する新しいタスク「次のアクティブオブジェクトの予測(ANACTO)」を提案している。
提案手法のT-ANACTOは以下の特徴を持つ:
- オブジェクト検出器とビジョントランスフォーマーを組み合わせたエンコーダーを使用し、過去の観察からオブジェクトと人間の相互作用を理解する
- 過去の観察と最後に予測された活性オブジェクトの位置を活用する自己回帰型デコーダーを使用し、アクション開始時のオブジェクトの位置を予測する
- 2つの損失関数を導入し、過去の観察からアクティブオブジェクトを特定し、将来のアクティブオブジェクトの位置を予測する
実験の結果、提案手法T-ANACTOは、EpicKitchens-100、EGTEA+、Ego4Dデータセットにおいて、関連する既存手法と比較して優れた性能を示した。また、定性的な分析から、T-ANACTOが過去の観察から人間-オブジェクト相互作用の可能性の高い領域に注目していることが分かった。
統計
人間の手とオブジェクトの接触が観察される領域に注目している
アクション開始時のオブジェクトの位置を正確に予測できている
引用
"次のアクティブオブジェクトの位置を予測する"
"過去の観察からオブジェクトと人間の相互作用を理解する"
"自己回帰型デコーダーを使用し、アクション開始時のオブジェクトの位置を予測する"