核心概念
マルチモーダルな特徴(動作、音声、外観)を統合することで、環境の変化に頑健な第一人称視点アクション認識モデルを実現する。
摘要
本研究は、第一人称視点アクション認識における領域一般化の課題に取り組んでいる。
- 外観特徴は環境の変化に敏感であるが、動作特徴と音声特徴はより頑健であることを示した。
- 動作特徴と音声特徴を統合することで、領域一般化性能を向上させることができる。
- 音声ナレーションを活用して、音声特徴と視覚特徴の整合性を高めることで、さらなる性能向上を実現した。
- 具体的には以下の手法を提案している:
- 動作、音声、外観の各モダリティに対して個別のエンコーダを学習
- 音声ナレーションと音声特徴の整合性を評価し、その結果を用いて音声特徴の重要度を調整
- 各モダリティの特徴とナレーションの整合性を学習することで、領域一般化性能を向上
统计
動作特徴の領域間性能低下は25.8%に留まるのに対し、外観特徴は54.8%の低下を示した。
音声特徴の領域間性能低下は32.7%であった。
引用
"動作パターンや音声の継続性は、環境や状況の違いに対してより安定しているのに対し、外観特徴は物体やバックグラウンドの違いにより大きく変化する。"
"マルチモーダルアプローチにより、音声と動作の特徴を統合することで、外観特徴単独に比べて42.8%の低下に抑えられた。"