Główne pojęcia
ビデオ質問回答タスクにおいて、効率的なフレームサンプリング手法を提案する。従来のヒューリスティックなサンプリング手法や学習ベースのサンプリング手法の課題を分析し、それらを改善するための2つの新しい手法を提案する。
Streszczenie
本論文は、ビデオ質問回答タスクにおけるフレームサンプリングの課題に取り組んでいる。従来のサンプリング手法には以下の問題点がある:
- ヒューリスティックなサンプリング手法は、ビデオやクエリの内容を考慮せずにサンプリングを行うため、重要なフレームを見逃す可能性がある。
- 学習ベースのサンプリング手法は、追加のネットワークを導入するため計算コストが高く、また既存の画像-テキストモデルとの互換性が低い。
そこで本論文では、以下の2つの新しいサンプリング手法を提案する:
-
Most Implied Frames (MIF):
- キャプション生成モデルとスコアリングモデルを組み合わせて、クエリに最も関連するフレームを選択する。
- 既存の質問関連サンプリング手法を一般化したものである。
-
Most Dominant Frames (MDF):
- 画像-テキストモデルの内部の視覚エンコーダを利用して、ビデオ内の最も静的なフレームを選択する。
- クエリ情報を使わない質問非依存のサンプリング手法である。
提案手法は、CLIP、GIT、All-in-oneといった様々な画像-テキストモデルと4つのデータセットで評価され、既存手法を上回る性能を示している。また、分析を通じて、質問関連のサンプリングは必須ではないことが明らかになった。
Statystyki
動画の長さLVに応じて、サンプリング幅Wを自動的に調整する。(Eq. 5)
各フレームのドミナンス度dom(t)を計算し、その局所最小値を選択する。(Eq. 4)