المفاهيم الأساسية
動画内の反復動作の視覚的対応関係を学習することで、動画の反復回数を正確に推定する。
الملخص
本研究では、動画内の反復動作の視覚的対応関係を学習することで、動画の反復回数を正確に推定する手法を提案している。
- 提案手法は、注意機構を用いたエンコーダ-デコーダモデルであり、動画と反復動作の例示(exemplar)を入力として、動画内の反復動作の位置を推定する。
- 同時に、一般的な反復動作の表現を学習する潜在表現を定義し、例示なしでも反復回数を推定できるようにしている。
- 3つの動画反復回数推定のベンチマークデータセット(RepCount、Countix、UCFRep)で評価を行い、従来手法を上回る性能を示している。
- 詳細な分析により、提案手法は反復動作の長さや動画の長さなど、様々な要因に対して頑健であることが確認された。
- 推論時に例示を利用することで、さらなる性能向上が可能であることも示された。
الإحصائيات
動画の反復回数が1-4の場合、RMSE=2.925、MAE=0.465、OBZ=0.389、OBO=0.778
動画の反復回数が5-8の場合、RMSE=1.378、MAE=0.151、OBZ=0.300、OBO=0.833
動画の反復回数が9-14の場合、RMSE=2.349、MAE=0.162、OBZ=0.222、OBO=0.519
動画の反復回数が15-30の場合、RMSE=3.464、MAE=0.120、OBZ=0.167、OBO=0.333
動画の反復回数が31-92の場合、RMSE=8.708、MAE=0.106、OBZ=0.107、OBO=0.286