Core Concepts
ビデオ全体の重要な情報を要約したコンテキストトークンを活用することで、ビデオの時間的情報を効果的かつ効率的に活用できる。
Abstract
本論文は、ビデオアクション認識のためのTC-CLIPという新しいアプローチを提案している。TC-CLIPは、ビデオ全体の重要な情報を要約したコンテキストトークンを活用することで、時間的情報を効果的かつ効率的に活用する。
具体的には以下の3つのステップから成る:
各フレームから重要なトークンを選択する
選択したトークンをクラスタリングし、ビデオ全体の関連情報を要約してコンテキストトークンを生成する
コンテキストトークンを活用して、自己注意機構の鍵と値を拡張する
さらに、ビデオから生成したコンテキストトークンを利用して、テキストプロンプトを動的に生成するVideo-conditional Promptingモジュールを提案している。
これらの手法により、ゼロショット、フューショット、ベースからノベルへの汎化、完全教師あり学習の各設定において、従来手法を大きく上回る性能を達成している。
Stats
ビデオ全体の重要なトークンを要約することで、時間的情報を効果的に活用できる。
コンテキストトークンを利用したVideo-conditional Promptingにより、テキストの意味情報を強化できる。
Quotes
"ビデオ全体の重要な情報を要約したコンテキストトークンを活用することで、ビデオの時間的情報を効果的かつ効率的に活用できる。"
"Video-conditional Promptingモジュールを提案し、ビデオから生成したコンテキストトークンを利用してテキストプロンプトを動的に生成する。"