Core Concepts
合成データはエゴセントリック手物体相互作用検出において有用であり、実際のラベル付きデータが不足している場合に改善をもたらす。
Abstract
この研究では、合成データがエゴセントリック手物体相互作用検出の向上にどのように貢献するかを調査しました。実験と比較分析を通じて、合成データが実際のラベル付きデータが不足している場合にHOI検出タスクで改善をもたらすことが示されました。具体的には、実際のラベル付きデータのわずか10%を活用することで、EPIC-KITCHENS VISOR、EgoHOS、ENIGMA-51でOverall APがそれぞれ+5.67%、+8.24%、+11.69%向上しました。新しいデータ生成パイプラインとHOI-Synthベンチマークによって分析がサポートされました。
Introduction
- エゴセントリック画像から人間が周囲の物体とどのように相互作用するか理解することはコンピュータビジョンの基本的な課題です。
- 過去の研究では、エゴセントリックビジョンシナリオで手物体相互作用理解タスクが探求されてきました。
Data Generation Pipeline and Simulator
- データ生成パイプラインは3つの主要なステップから構成されます。
- 手物体グラスプ選択から始まります。
- 環境選択と人間配置へ進みます。
- 最後に自動的にラベル付けされたエゴセントリックデータ生成します。
Datasets
- HOI-Synthベンチマークは既存の3つのエゴセントリック画像データセットを拡張しました。
- EPIC-KITCHENS VISOR:32,857枚のトレーニング画像含む。
- EgoHOS:8,107枚のトレーニング画像含む。
- ENIGMA-51:3,479枚のトレーニング画像含む。
Experimental Analysis and Results
- 合成データは実際のラベル付きデータが不足している場合でも性能向上をもたらします。
- UDAやSSDAアプローチは全体的なAPを大幅に向上させます。
Stats
実験結果では、「Overall AP」や「Hand + Object (Overall) AP」など数値指標が使用されています。