Core Concepts
ビデオをグラフ構造に変換し、グラフニューラルネットワークを用いてビデオフレームの重要度を予測することで、効率的にビデオサマリを生成する。
Abstract
本研究では、ビデオをグラフ構造に変換し、グラフニューラルネットワークを用いてビデオフレームの重要度を予測することで、効率的にビデオサマリを生成する手法を提案している。
具体的には以下の通り:
ビデオをグラフ構造に変換する際、時間的に近接したフレーム間のみを接続することで、スパースなグラフを構築する。これにより、長距離の相互作用を捉えつつ、メモリとコンピューティングリソースの使用を抑えることができる。
グラフニューラルネットワークを用いて、各ノード(フレーム)が出力サマリに含まれるかどうかを二値分類する。
順方向、逆方向、無向の3つのグラフを並列に学習し、時間的な整合性を保つようにする。
2つのベンチマークデータセット(SumMe、TVSum)で実験を行い、既存手法と比較して、同等以上の精度を維持しつつ、1桁高速で、メモリ使用量も3分の1以下に抑えられることを示した。
Stats
入力ビデオの長さは1分から10分程度である。
各ビデオフレームはGoogLeNetの特徴量(1024次元)で表現されている。
接続可能な最大時間差は、SumMeで20フレーム、TVSumで10フレームである。
Quotes
"我々は、ビデオをグラフ構造に変換し、グラフニューラルネットワークを用いてビデオフレームの重要度を予測することで、効率的にビデオサマリを生成する手法を提案する。"
"スパースなグラフ構造を用いることで、長距離の相互作用を捉えつつ、メモリとコンピューティングリソースの使用を抑えることができる。"