本コンテンツは、大規模なエゴセントリックビデオを活用したロボットのモーター制御向けのシンプルで効果的な事前トレーニングフレームワークであるSTPを紹介しています。STPは、大規模なビデオデータを活用し、多目標学習方式で時空間予測学習を行います。STPは、マスクされた現在フレーム内の不可視領域を予測することでコンテンツ特徴を捉え、同時に未来フレームを極めて高いマスキング率で条件として使用して動き特徴を捉えます。さらに、STPはこれまでに最も大規模なPVRs評価を実施し、その有効性を示しています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiange Yang,... at arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.05304.pdfDeeper Inquiries