核心概念
テキストの指示に従って、第一人称視点の画像から接触点と操作軌跡を学習する。
要約
本研究では、テキストに基づく操作可能性の学習を提案する。従来の研究では、予め定義された物体と行動に焦点を当てていたが、実世界のシナリオではユーザーの指示は多様であり、それらを網羅することは困難であった。本手法では、テキストの指示に従って、第一人称視点の画像から接触点と操作軌跡を学習することを目的とする。
具体的には、まず大規模な第一人称視点ビデオデータセットから、自動的にラベル付けされたデータセット「TextAFF80K」を構築する。次に、既存の参照表現理解モデルを拡張し、テキストと画像から接触点と操作軌跡を予測するモデルを提案する。
実験の結果、提案手法は多様な操作可能性を堅牢に扱うことができ、特にツール操作に関して優れた性能を示した。また、線形と回転の両方の運動を考慮することで、複雑な操作軌跡を表現できることが分かった。
統計
手を使った操作では、「pick」と「take」が最も多い動作である。
ツール操作では、様々な動作が見られる。