Core Concepts
本研究では、動画要約のための新しい大規模クロスモーダルデータセットであるInstruct-V2Xumを提案し、動画要約タスクを統一的に扱うことができる言語モデルフレームワークであるV2Xum-LLaMaを開発した。これにより、動画要約の精度を大幅に向上させることができた。
Abstract
本研究では、以下の3つの主要な貢献を行っている。
V2Xum-LLaMaと呼ばれる新しい動画要約フレームワークを提案した。このフレームワークは、異なる動画要約タスクを1つの大規模言語モデルのテキストデコーダに統一し、時間的プロンプトと課題指示を使ってタスクを制御できる。実験の結果、V2Xum-LLaMaは既存の強力なベースラインモデルを上回る性能を示した。
動画要約タスクの学習に十分なデータを提供するため、30,000本の多様な動画から構成される新しい大規模クロスモーダル動画要約データセットであるInstruct-V2Xumを構築した。このデータセットにより、大規模言語モデルを効果的に微調整することができる。
動画要約タスクの評価方法について分析し、V2V要約とV2VT要約のための新しい評価メトリックであるFCLIPとCross-FCLIPを提案した。実験の結果、これらの新しい評価メトリックは従来の評価指標と高い一致性を示した。
Stats
動画の平均長さは183秒
テキスト要約の平均長さは239トークン
動画要約の平均長さは30フレーム
圧縮率は平均16.39%