本コンテンツは、大規模なエゴセントリックビデオを活用したロボットのモーター制御向けのシンプルで効果的な事前トレーニングフレームワークであるSTPを紹介しています。STPは、大規模なビデオデータを活用し、多目標学習方式で時空間予測学習を行います。STPは、マスクされた現在フレーム内の不可視領域を予測することでコンテンツ特徴を捉え、同時に未来フレームを極めて高いマスキング率で条件として使用して動き特徴を捉えます。さらに、STPはこれまでに最も大規模なPVRs評価を実施し、その有効性を示しています。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jiange Yang,... lúc arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.05304.pdfYêu cầu sâu hơn