核心概念
視聴者の要求に応じて、関連する指導動画のセグメントを見つけ出すことで、指導動画をより効果的にナビゲートできる。
要約
本研究は、指導動画をナビゲートする新しいタスクを提案している。視聴者が現在の動画を視聴中に、自身のニーズに合わせて別の動画のセグメントを探し出すことができるようにするものである。
具体的には、視聴中の動画(ソース動画)と自然言語のクエリを入力として、関連する「迂回動画」とその該当タイムスタンプを出力する。
これを実現するため、ビデオ-言語モデルであるVidDetoursを提案している。ソース動画の視聴履歴とクエリを組み合わせて、大規模な指導動画リポジトリから適切な迂回動画とセグメントを検索・特定する。
また、大規模な指導動画データセットHowTo100Mを活用し、弱教師付きの学習データを自動生成する手法を開発した。
実験の結果、提案手法は既存手法に比べて大幅な性能向上を示した。本研究は、指導動画を相互に関連付けた知識ベースの構築に向けた重要な一歩となる。
統計
指導動画は一般的にYouTubeの上位カテゴリの1つを占めている。
現在の指導動画は個別の教示に留まっており、相互の関連性が低い。
視聴者は、自身の条件に合わせて指導動画をカスタマイズする必要がある。
引用
"What if the wealth of knowledge in online instructional videos was not an array of isolated lessons, but instead an interconnected network of information?"
"Conditioned on the content watched so far in the source video, the goal is to identify a detour video—and a temporal segment within it—that would allow the user to continue their task with the adjustment specified by their language query, then return to the original source video and complete execution."