Conceitos essenciais
VLPモデルを活用した新しい「Align before Adapt」パラダイムは、ビデオアクション認識において優れた解釈可能性と汎化能力を実現します。
Estatísticas
ALTはKinetics-400で88.1%のトップ1精度を達成しました。ALTはZero-shotおよびFew-shot実験で他手法よりも優れた汎化能力を示しました。
Citações
"Prior to adapting to video representation learning, we exploit the entity-to-region alignments for each frame."
"ALT demonstrates competitive performance while maintaining remarkably low computational costs."