Core Concepts
未ラベル動画を活用して、生成されたイベントキャプションとそれに対応するPseudo Boundaryを最適化することで、密集した動画キャプション生成の性能を大幅に向上させる。
Abstract
本論文は、密集した動画キャプション生成(Dense Video Captioning)の性能を向上させるための新しい前処理フレームワーク「DIBS」を提案している。
具体的には以下の2つの主要な貢献がある:
大規模な未ラベル動画データを活用して、LLMを用いて高品質なイベントキャプションを生成し、それに対応するPseudo Boundaryを最適化する手法を提案した。多様性、イベント中心性、時間順序性、一貫性などの観点から最適化を行う。
生成されたPseudo Boundaryの品質をさらに向上させるため、トレーニング中に逐次的に精緻化する新しいオンラインリファインメント手法を提案した。
実験の結果、提案手法は既存手法と比べて大幅な性能向上を達成できることが示された。特に、YouCook2データセットでは、わずか0.4%の未ラベル動画データを使うだけで、既存最高性能を上回ることができた。
Stats
未ラベル動画データHowTo100Mの一部(約56,000本)を使用した
YouCook2データセットには200フレーム、ActivityNetデータセットには100フレームを使用した