本研究は、指導動画をナビゲートする新しいタスクを提案している。視聴者が現在の動画を視聴中に、自身のニーズに合わせて別の動画のセグメントを探し出すことができるようにするものである。
具体的には、視聴中の動画(ソース動画)と自然言語のクエリを入力として、関連する「迂回動画」とその該当タイムスタンプを出力する。
これを実現するため、ビデオ-言語モデルであるVidDetoursを提案している。ソース動画の視聴履歴とクエリを組み合わせて、大規模な指導動画リポジトリから適切な迂回動画とセグメントを検索・特定する。
また、大規模な指導動画データセットHowTo100Mを活用し、弱教師付きの学習データを自動生成する手法を開発した。
実験の結果、提案手法は既存手法に比べて大幅な性能向上を示した。本研究は、指導動画を相互に関連付けた知識ベースの構築に向けた重要な一歩となる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kumar Ashuto... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2401.01823.pdfDeeper Inquiries