Khái niệm cốt lõi
本稿では、ジェスチャーの分類と時間的 локализацию を同時に行う、新しい自動ジェスチャーアノテーションフレームワークを提案する。このフレームワークは、ラベル付けされていないデータセットから高品質な擬似ラベルを生成し、下流のジェスチャー認識モデルのトレーニングを大幅に向上させる。
書誌情報
Shen, J., Xu, X., Tan, R., Karlson, A., & Strasnick, E. (2024). Boosting Gesture Recognition with an Automatic Gesture Annotation Framework. In 2024 18th International Conference on Automatic Face and Gesture Recognition (FG) (pp. 1-5). IEEE.
研究目的
本研究は、手動によるアノテーションを必要とせず、ラベル付けされていないデータセットから高品質なジェスチャーアノテーションを自動的に生成するフレームワークを提案することを目的とする。
手法
本研究では、ジェスチャーの分類と時間的 локализацию を同時に行う、CTC損失を用いた新しいアノテーションモデルを提案する。さらに、擬似ラベルを用いた半教師あり学習パイプラインを導入し、ラベル付けされていないデータを用いてアノテーションモデルの性能を向上させる。
主な結果
アノテーションモデルは、ジェスチャー分類の精度においてベースラインモデルを4.3%、ジェスチャーのnucleus localizationの精度において71.4%上回る結果となった(SHREC'2021データセットの場合)。
擬似ラベルを用いてファインチューニングを行った結果、下流のジェスチャー認識モデルの精度は11%から18%向上した。
結論
提案されたフレームワークは、ラベル付けされていないデータセットから高品質な擬似ラベルを生成することで、下流のジェスチャー認識モデルのトレーニングを大幅に向上させることができる。
意義
本研究は、手動によるアノテーションの負担を軽減し、大規模なデータセットを用いたジェスチャー認識システムの開発を促進するものである。
限界と今後の研究
アノテーションモデルの学習には、ベースラインモデルと比較して時間がかかる。
現状のフレームワークは、初期段階においてラベル付きデータが必要となる。
今後は、完全に教師なしのアノテーションフレームワークの開発や、より効率的な学習方法の検討などが課題として挙げられる。
Thống kê
提案されたアノテーションモデルは、SHREC'2021データセットにおいて、ベースラインモデルと比較して、ジェスチャー分類の精度で4.3%、nucleus localizationの精度で71.4%向上した。
Online DHGデータセットにおいては、それぞれ3.4%と75.0%の改善が見られた。
擬似ラベルを用いたファインチューニングにより、下流のジェスチャー認識モデルの精度は、SHREC'2021データセットとOnline DHGデータセットにおいて、それぞれ11%から18%向上した。