核心概念
マルチモーダルモデルであるCLIPを活用し、動画ハイライト検出タスクにおいて最先端のパフォーマンスを達成する。
要約
本論文では、動画ハイライト検出タスクにおいて、マルチモーダルモデルであるCLIPの潜在的な可能性を引き出す手法「HL-CLIP」を提案している。
具体的には以下の通り:
CLIPの視覚エンコーダとテキストエンコーダの最後の数層をファインチューニングすることで、動画フレームとクエリ間の関連性を推定する。
隣接フレーム間の類似性を活用するためにバッチ内でフレーム特徴を積み重ねる。
クエリ特徴をフレーム数に合わせて複製することで、クエリとフレームの整合性を高める。
推論時にはサリエンシープーリングを適用し、隣接フレームの意味的類似性を考慮してより頑健なサリエンシースコアを算出する。
この手法により、QVHighlightベンチマークにおいて最先端のパフォーマンスを達成している。
統計
動画1本あたり150秒の長さを持つ。
人手によるアノテーションにより、各フレームのサリエンシースコアが0から1の範囲で付与されている。