本研究では、ビデオ理解の課題に取り組むため、ビデオ条件付きテキスト表現(VicTR)を提案している。従来のVLMは主に静止画像を対象としており、ビデオ領域への適応が課題となっていた。
VicTRの主な特徴は以下の通りである:
テキスト表現をビデオ固有のものに更新することで、ビジュアル情報とテキスト情報の相互作用を強化する。これにより、複雑なビデオ理解タスクでの性能向上を実現する。
任意の言語概念(オブジェクト、シーン、人物など)を表すテキスト情報を活用し、ビデオ条件付きテキスト表現の最適化を支援する。
トークン増強、クロスモーダルアテンション、アフィニティ(類似度)再重み付けの3つの主要コンポーネントから構成される。これにより、ビデオ情報とテキスト情報の相互作用を効果的に学習する。
実験では、少数サンプル学習、ゼロショット学習、短尺ビデオ認識、長尺ビデオ認識の各ベンチマークで、従来手法を上回る性能を示している。特に長尺ビデオ認識タスクでは大幅な性能向上を実現しており、ビデオ理解におけるテキスト情報の重要性を明らかにしている。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Kumara Kahat... klokken arxiv.org 04-01-2024
https://arxiv.org/pdf/2304.02560.pdfDypere Spørsmål