Keskeiset käsitteet
ラージランゲージモデルを活用して大規模なビデオ要約データセットを自動的に生成し、それを利用して新しいビデオ要約モデルを提案している。
Tiivistelmä
本研究は、ビデオ要約のための大規模データセットの構築と新しいモデルの提案を行っている。
まず、長編ビデオとその音声テキスト転写データを活用し、ラージランゲージモデルを用いて自動的に要約文を生成することで、大規模なビデオ要約データセット(LfVS-P)を構築している。
次に、この大規模データセットを利用して、既存のビデオ要約手法の課題を分析し、それを解決する新しいビデオ要約モデルを提案している。このモデルは、ビジュアルと言語の両方の情報を活用し、自己回帰的な生成プロセスを採用することで、より効果的なビデオ要約を実現している。
さらに、ビデオ要約の評価のために、1,200本の長編ビデオとそのプロフェッショナルによる高品質な要約からなる新しいベンチマークデータセット(LfVS-T)を紹介している。
実験の結果、提案手法が既存手法を大きく上回る性能を示し、ビデオ要約分野における新しい最先端を達成している。
Tilastot
長編ビデオの平均長さは13.3分
LfVS-Pデータセットには250,000本のビデオと要約が含まれる
LfVS-Tベンチマークには1,200本のビデオと人手による高品質な要約が含まれる
Lainaukset
"長編ビデオコンテンツはインターネットトラフィックの大部分を占めており、自動ビデオ要約は重要な研究課題となっている。"
"既存のビデオ要約データセットは著しく小規模であり、最先端手法の一般化能力を大きく制限している。"
"本研究の主な焦点は、これらの制限に取り組むことである。"