ロゴスタイル転送を用いて、ビデオ認識システムを効率的に攻撃することができる。
本研究では、大規模言語モデルを用いて、カテゴリ名を時空間記述子に拡張することで、テキストの知識を精緻化し、一般的なビデオ認識を向上させる。さらに、フレーム表現と記述子の最適なマッチングを求めるOD Solverを提案し、ビデオ-テキストの照合を最適輸送問題として定式化する。
「View while Moving」パラダイムは、長いトリミングされていないビデオでの効率的なビデオ認識を可能にし、単一のアクセスで生フレームにアクセスします。
Hue Jitteringは、動画認識において有益であり、Motion Coherent Augmentation(MCA)は外観不変表現を学習するために効果的である。