Core Concepts
本研究では、視点の異なる行動動画に対して、モデルの注意が一貫性を持つことを保証する手法を提案する。
Abstract
本研究では、行動認識の問題に取り組んでいる。従来の深層学習モデルは、行動の主体に適切に注意を向けることができないという課題がある。そこで本研究では、視点の異なる行動動画に対して、モデルの注意の一貫性を保証する手法を提案する。
具体的には、2つの異なる視点からの注意マップの類似性を、方向付きGromov-Wasserstein距離を用いて評価する。これにより、注意の構造や動きの情報を維持しつつ、視点の変化に頑健な注意の一貫性を実現する。
さらに、単一視点のデータセットでも、Neural Radiance Fieldsを用いて暗黙的に複数視点の特徴を抽出できるようにした。
提案手法は、Jester、Something-Something V2、Kinetics-400の3つの大規模行動認識データセットで最先端の性能を達成している。
Stats
行動認識タスクでは、モデルが適切な行動主体に注意を向けることが重要である。
視点の変化に伴い、モデルの注意マップも変化するが、その変化は一貫性を持つべきである。
方向付きGromov-Wasserstein距離は、注意マップの構造や動きの情報を維持しつつ、視点変化に頑健な類似性評価を可能にする。
Quotes
"本研究では、視点の異なる行動動画に対して、モデルの注意の一貫性を保証する手法を提案する。"
"方向付きGromov-Wasserstein距離は、注意マップの構造や動きの情報を維持しつつ、視点変化に頑健な類似性評価を可能にする。"
"提案手法は、Jester、Something-Something V2、Kinetics-400の3つの大規模行動認識データセットで最先端の性能を達成している。"