核心概念
人間の視覚知覚生物学に着想を得て、ビデオとテキスト/音声クエリ間の意味的関連性を学習する統合された静的および動的ネットワーク(UniSDNet)が効率的なビデオグラウンディングを実現します。
統計
ビデオ理解と交差モーダル相互作用に重点を置く方法は、強力なマルチクエリベンチマークよりも1.56倍高速です。
NLVG用3つの広く使用されるデータセットでSOTAパフォーマンスを達成しました。例えば、ActivityNet Captionsで38.88%R@1, IoU@0.7、TACoSで40.26%R@1, IoU@0.5の新記録を報告しています。
引用
"我々は人間の視覚知覚生物学からインスピレーションを受けています。"
"UniSDNetはNLVGおよびSLVGタスクでSOTAパフォーマンスを達成しました。"