核心概念
3DInActionパイプラインは、時間的に変化するローカルポイントパッチ(t-パッチ)を抽出し、階層的なアーキテクチャを使用してスペース-時間表現を学習することで、3Dポイントクラウドからの行動認識を大幅に向上させる。
要約
本論文は、3Dポイントクラウドからの行動認識に関する新しい手法を提案している。
- 3Dポイントクラウドデータは、構造がなく、順序が定まっておらず、ポイント数が可変であるため、時空間表現の学習が困難である。
- 提案手法では、まず時間的に変化するローカルポイントパッチ(t-パッチ)を抽出する。
- t-パッチを入力として、階層的なニューラルネットワークアーキテクチャを使用して、情報豊かな時空間表現を学習する。
- t-パッチの抽出時に発生する時間的な収縮問題を解決するため、ジッターの追加と双方向t-パッチの提案を行う。
- 実験の結果、提案手法は既存手法と比較して、DFAUST及びIKEA ASMデータセットで大幅な性能向上を示した。
統計
3Dポイントクラウドは、従来のRGBデータに比べて、構造がなく、順序が定まっておらず、ポイント数が可変であるため、時空間表現の学習が困難である。
提案手法では、時間的に変化するローカルポイントパッチ(t-パッチ)を抽出することで、この問題に対処している。
引用
"3Dセンサーは、ポイントクラウドの形式で環境をサンプリングした代替的なモダリティを提供する。しかし、3Dビジョンと学習に関する膨大な研究にもかかわらず、静的な3Dポイントクラウドデータセットさえも、その収集と注釈付けの困難さから、RGBイメージのデータセットに比べて著しく小さい。"
"3Dポイントクラウド系列データベースはさらに小さく、3Dアクション表現を意味のあるものにするのがより困難である。さらに、ピクセルとは異なり、時間を通じてポイントの1対1の対応関係はない。"