核心概念
時間的な変化に対する動作検出モデルの脆弱性を明らかにし、それを改善する簡単かつ効果的な手法を提案する。
要約
本研究では、時間的な変化に対する動作検出モデルの頑健性を評価するためのベンチマークデータセットを提案している。THUMOS14-CとActivityNet-v1.3-Cと呼ばれるこれらのデータセットには、5種類の時間的な変化(ブラックフレーム、ぼかし、過剰露光、遮蔽、パケットロス)が3段階の強さで導入されている。
実験の結果、既存の動作検出モデルは時間的な変化に対して非常に脆弱であることが明らかになった。特に、エンドツーエンドのモデルは、特徴抽出器を使うモデルよりも脆弱であることがわかった。この脆弱性の主な原因は、分類エラーよりも位置推定エラーにあることが分かった。また、変化が動作の中心部分に生じた場合に最も大きなパフォーマンス低下が見られた。
さらに、FrameDropと呼ばれる新しい data augmentation 手法と、Temporal-Robust Consistency (TRC) lossを提案し、これらを組み合わせることで、既存の動作検出モデルの頑健性を大幅に向上させることができた。興味深いことに、提案手法は頑健性の向上だけでなく、クリーンなデータに対するパフォーマンスの向上にも寄与することが分かった。
統計
時間的な変化を含む動画では、既存の動作検出モデルのmAPが最大25.86%低下する。
時間的な変化の影響は、位置推定エラーに起因するものが大きい。
動作の中心部分に変化が生じた場合、モデルのパフォーマンス低下が最も大きい。
引用
"既存の動作検出モデルは時間的な変化に対して非常に脆弱であり、エンドツーエンドのモデルはより脆弱である。"
"時間的な変化に対する脆弱性の主な原因は、分類エラーよりも位置推定エラーにある。"
"動作の中心部分に変化が生じた場合、モデルのパフォーマンス低下が最も大きい。"