核心概念
ロボットのモーター制御における時空間予測的事前トレーニングの効果的な枠組みを提案する。
要約
本コンテンツは、大規模なエゴセントリックビデオを活用したロボットのモーター制御向けのシンプルで効果的な事前トレーニングフレームワークであるSTPを紹介しています。STPは、大規模なビデオデータを活用し、多目標学習方式で時空間予測学習を行います。STPは、マスクされた現在フレーム内の不可視領域を予測することでコンテンツ特徴を捉え、同時に未来フレームを極めて高いマスキング率で条件として使用して動き特徴を捉えます。さらに、STPはこれまでに最も大規模なPVRs評価を実施し、その有効性を示しています。
統計
STPが提供する最大成功率: 76.4%
MAEが提供する最大成功率: 72.5%
STPが提供する平均メトリック: 63.7%
MAEが提供する平均メトリック: 59.6%
STPによる実世界タスクの成功率(ピッキング): 65.0%
STPによる実世界タスクの成功率(ポーリング): 65.0%
引用
"Robotic motor control necessitates the ability to predict the dynamics of environments and interaction objects."
"Our STP samples paired frames from video clips and adheres to two key designs in a multi-task learning manner."
"We present STP, a multi-task self-supervised pre-training framework through spatiotemporal predictive learning."