Conceitos essenciais
人間が異なる環境で行動することを考慮し、CLIPベースのビデオ学習者が未知のビデオドメインに効果的に一般化できるかどうかを検証します。
Resumo
人間が異なる環境で行動することを考慮し、CLIPベースのビデオ学習者が未知のビデオドメインに効果的に一般化できるかどうかに焦点を当てた新しい方法論です。XOV-ActionというCROSS-domain Open-Vocabulary Action recognition benchmarkを確立し、5つの最先端のCLIPベースのビデオ学習者を包括的に評価します。これらの評価は、以前の方法が未知のテストドメインでアクションを認識する際に限界性能を示すことを明らかにしました。特に、大きなドメインギャップを持つテストドメインでは、これらのモデルは非常に限られたパフォーマンスしか発揮しません。我々はシーンバイアスへの取り組みに焦点を当て、シーン無関係なビデオ表現を学ぶための新しい手法を提案しています。
Estatísticas
53.89% for dark videos in ARID.
ACC of 42.22% on HMDB.
Citações
"Can CLIP-based video learners effectively generalize to unseen test domains?"
"Our evaluation reveals that these CLIP-based video learners exhibit limited performance when recognizing actions in unseen test domains."