核心概念
本論文では、詳細かつ密度の高いキャプション付き大規模動画データセットVriptと、それを用いて訓練された高性能な動画キャプションモデルVriptor、そしてVriptを用いた、既存のベンチマークよりも困難な3つのタスクから成る動画理解ベンチマークVript-Hardを提案する。
要約
Vript:詳細かつ密度の高いキャプション付き大規模動画データセットと、それを用いた動画理解ベンチマークVript-Hardの提案
本論文では、高品質な動画テキストデータセットであるVript、Vriptを用いて訓練された動画キャプションモデルVriptor、そしてVriptを用いた動画理解ベンチマークVript-Hardを提案する。
既存の動画テキストデータセットは、キャプションが短く、詳細さに欠けるものが多かった。そこで本研究では、詳細かつ密度の高いキャプション付きの動画テキストデータセットVriptを構築した。
Vriptの特徴
12,000本の高解像度動画と、420,000件以上のクリップに対する詳細なキャプションを含む。
各クリップのキャプションは平均145ワードで、既存のデータセットの10倍以上の長さを持つ。
動画の内容だけでなく、ショットの種類やカメラの動きなど、カメラの操作も記録されている。
音声解説のテキスト化と動画タイトルを付加することで、キャプションの幻覚を大幅に減らしている。