人間の視覚知覚生物学に着想を得て、ビデオとテキスト/音声クエリ間の意味的関連性を学習する統合された静的および動的ネットワーク(UniSDNet)が効率的なビデオグラウンディングを実現します。
PRVGは、密なビデオグラウンディングタスクにおいて、言語をクエリとして使用し、直接的かつ効率的にテンポラル境界を予測することで優れたパフォーマンスを達成します。