toplogo
Entrar

CLIPベースのビデオ学習者を再考する:クロスドメインオープンボキャブラリーアクション認識


Conceitos essenciais
人間が異なる環境で行動することを考慮し、CLIPベースのビデオ学習者が未知のビデオドメインに効果的に一般化できるかどうかを検証します。
Resumo
人間が異なる環境で行動することを考慮し、CLIPベースのビデオ学習者が未知のビデオドメインに効果的に一般化できるかどうかに焦点を当てた新しい方法論です。XOV-ActionというCROSS-domain Open-Vocabulary Action recognition benchmarkを確立し、5つの最先端のCLIPベースのビデオ学習者を包括的に評価します。これらの評価は、以前の方法が未知のテストドメインでアクションを認識する際に限界性能を示すことを明らかにしました。特に、大きなドメインギャップを持つテストドメインでは、これらのモデルは非常に限られたパフォーマンスしか発揮しません。我々はシーンバイアスへの取り組みに焦点を当て、シーン無関係なビデオ表現を学ぶための新しい手法を提案しています。
Estatísticas
53.89% for dark videos in ARID. ACC of 42.22% on HMDB.
Citações
"Can CLIP-based video learners effectively generalize to unseen test domains?" "Our evaluation reveals that these CLIP-based video learners exhibit limited performance when recognizing actions in unseen test domains."

Perguntas Mais Profundas

人間が異なる環境で行動することは、この分野全体にどんな影響を与える可能性がありますか?

人間が異なる環境で行動することは、クロスドメインオープンボキャブラリーアクション認識の分野にさまざまな影響をもたらす可能性があります。例えば、実世界のアプリケーションでは、監視システムや健康モニタリングシステムにおいて、照明条件や天候の変化によって行動が異なる場面が発生します。したがって、モデルは様々な環境変化に頑健である必要があります。人間の行動は多様な背景やシーンで起こり得るため、異なる環境下でも正確に認識する能力は重要です。そのため、クロスドメインオープンボキャブラリーアクション認識の分野では、未知のテストドメインへの汎用性や適応能力を向上させる取り組みが求められています。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star