Core Concepts
提案されたPOVフレームワークは、第三者視点のビデオから視野に関係ない表現を学習し、効率的にエゴセントリックシナリオに適応する能力を持っています。
Abstract
人間の学習プロセスからインスピレーションを受けたPOVフレームワークは、第三者視点のビデオで事前トレーニングを行い、アクション理解と視野に関係ないチューニングの2つの学習目標を持っています。その後、エゴセントリックビデオでPOVを任意にファインチューニングして、視点適応を改善します。細かいアクションと視野に関係ない知識を学ぶために、プロンプト指向のビジョントランスフォーマーを使用し、視点適応用の2種類のビジュアルプロンプトを設計しています。さまざまな評価セットアップで行われた包括的な実験は、既存の手法を凌駕していることを証明しています。
Stats
我々が提案したPOVフレームワークは他の手法よりも+2.65%以上の改善結果を示しました。
POVはZero-shotおよびFew-shotセットアップで優れたパフォーマンスを発揮しました。
POVは異なる評価セットアップで効果的かつ効率的であることが示されています。