核心概念
人間行動理解は物理空間から意味空間への写像として捉えられる。従来の行動データセットは設計者の選択に基づいて構築されており、意味的な隔たりが存在する。本研究では、言語学的構造知識に基づいて構造化された意味空間を提案し、多様なデータセットを統合した「大陸」を構築する。さらに、この統一的な意味空間を活用した物理空間から意味空間への写像モデルを提案し、優れた表現力と転移学習能力を示す。
摘要
本研究は、人間行動理解の課題に取り組むために、従来の行動データセットが抱える問題を明らかにし、それを解決するための新しいアプローチを提案している。
具体的には以下の3点が主な内容となっている:
-
従来の行動データセットには意味的な隔たりが存在し、互いに独立して構築されているため、階層性や粒度の違いが見られる問題を指摘する。これらの問題を「孤立した島々」と表現している。
-
この問題を解決するため、言語学的な構造知識であるVerbNetに基づいて構造化された意味空間を提案する。この意味空間は、曖昧性の解消、豊富な知識の活用、階層性の表現、広範囲のカバレッジなどの特徴を持つ。さらに、多様なデータセットを統合し、この意味空間に整合させた「大陸」データベースを構築する。
-
提案した意味空間を活用し、物理空間から意味空間への写像モデル(P2S)を開発する。P2Sは、意味的な分離表現の学習や、言語的・幾何学的情報の活用などの手法を用いて、優れた行動認識性能と転移学習能力を示す。
全体として、本研究は人間行動理解の課題に対して、意味空間の構造化と多様なデータの統合という新しい視点を提案し、優れた性能を実現している。
統計資料
提案手法P2Sは、従来のCLIPモデルと比較して、Pangea testデータセットの全体、稀少クラス、非稀少クラスにおいて、それぞれ34.25%、21.56%、45.00%のmAPを達成した。
P2Sは、HICO画像ベンチマークにおいて47.74%のmAPを達成し、SOTA手法を上回った。
P2Sは、HAA動画ベンチマークにおいて71.40%の精度を達成し、SOTA手法を上回った。
P2Sは、HMDB51動画ベンチマークにおいて68.37%の精度を達成し、SOTA手法を上回った。
P2Sは、Kinetics-400動画ベンチマークにおいて73.80%の精度を達成し、SOTA手法を上回った。
P2Sは、BABEL 3Dベンチマークにおいて49.69%の精度を達成し、SOTA手法を上回った。
P2Sは、HAA4D 3Dベンチマークにおいて54.1%の精度を達成し、SOTA手法を上回った。
引述
「従来のデータセットは設計者の独自の選択に基づいて構築されており、意味的な隔たりが存在する」
「我々は、より体系的な意味空間を必要としており、すべてのデータセットを一緒に使用して一般化可能な行動学習を追求する必要がある」
「提案する意味空間は、曖昧性の解消、豊富な知識の活用、階層性の表現、広範囲のカバレッジなどの特徴を持つ」