本研究は、ビデオ認識における課題に取り組んでいる。従来のアプローチは、ビジュアルの違いに対処するための追加の時間学習器に焦点を当ててきたが、テキストの違いを軽視してきた。
具体的には、ウェブスケールの記述的な物語と簡潔なアクションカテゴリ名の間のテキストの違いが、潜在空間の弁別性を低下させ、認識性能の限界をもたらしていると指摘している。
そこで本研究では、大規模言語モデルを用いて、カテゴリ名を時空間記述子に拡張することで、テキストの知識を精緻化し、一般的なビデオ認識を向上させる。
さらに、フレーム表現と記述子の最適なマッチングを求めるOD Solverを提案し、ビデオ-テキストの照合を最適輸送問題として定式化する。
実験の結果、ゼロショット、少量ショット、完全教師あり設定において、提案手法の有効性が示された。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Tongjia Chen... klokken arxiv.org 03-29-2024
https://arxiv.org/pdf/2312.00096.pdfDypere Spørsmål