核心概念
本研究では、大規模言語モデルを用いて、カテゴリ名を時空間記述子に拡張することで、テキストの知識を精緻化し、一般的なビデオ認識を向上させる。さらに、フレーム表現と記述子の最適なマッチングを求めるOD Solverを提案し、ビデオ-テキストの照合を最適輸送問題として定式化する。
要約
本研究は、ビデオ認識における課題に取り組んでいる。従来のアプローチは、ビジュアルの違いに対処するための追加の時間学習器に焦点を当ててきたが、テキストの違いを軽視してきた。
具体的には、ウェブスケールの記述的な物語と簡潔なアクションカテゴリ名の間のテキストの違いが、潜在空間の弁別性を低下させ、認識性能の限界をもたらしていると指摘している。
そこで本研究では、大規模言語モデルを用いて、カテゴリ名を時空間記述子に拡張することで、テキストの知識を精緻化し、一般的なビデオ認識を向上させる。
さらに、フレーム表現と記述子の最適なマッチングを求めるOD Solverを提案し、ビデオ-テキストの照合を最適輸送問題として定式化する。
実験の結果、ゼロショット、少量ショット、完全教師あり設定において、提案手法の有効性が示された。
統計
ビデオデータセットのカテゴリ名は、名詞の変動が大きく、動詞は一貫して使われるため、テキストの弁別性が低い。
カテゴリ名のテキスト埋め込みの平均コサイン類似度は、画像データセットに比べ、ビデオデータセットの方が高い。
引用
"ウェブスケールの記述的な物語と簡潔なアクションカテゴリ名の間のテキストの違いが、潜在空間の弁別性を低下させ、認識性能の限界をもたらしている。"
"大規模言語モデルを用いて、カテゴリ名を時空間記述子に拡張することで、テキストの知識を精緻化し、一般的なビデオ認識を向上させる。"
"フレーム表現と記述子の最適なマッチングを求めるOD Solverを提案し、ビデオ-テキストの照合を最適輸送問題として定式化する。"