核心概念
高圧縮ビデオでも正確な姿勢推定を行うことで、信頼性の高い歩容認識を実現する。
摘要
本研究では、監視カメラ映像などの低品質ビデオでも正確な姿勢推定を行うための手法を提案する。
まず、高品質ビデオから自動的に姿勢ラベルを生成し、それを低品質ビデオの姿勢推定の教師データとして使用する。次に、姿勢推定モデルとは別に、低品質ビデオの圧縮アーティファクトを補正するモデルを訓練する。この補正モデルは、姿勢推定モデルの性能を最大化するように最適化される。
実験の結果、提案手法は低品質ビデオでの姿勢推定精度を大幅に向上させ、さらに高品質ビデオでの性能も維持することができた。また、この姿勢推定の精度向上が、歩容認識タスクの性能向上にもつながることを示した。
本手法は、監視カメラ映像などの低品質データでも信頼性の高い歩容認識を実現するための有効な手段となる。
統計資料
低品質ビデオでの姿勢推定精度(AP)は、事前学習モデルが0.783、fine-tuningモデルが0.935、提案手法が0.956と大幅に向上した。
高品質ビデオでの姿勢推定精度(AP)は、事前学習モデルが0.935、fine-tuningモデルが0.952、提案手法が0.967と向上した。
提案手法を用いた場合の歩容認識精度は、平均で40.9%となり、fine-tuningモデルの35.4%を大きく上回った。
引述
"高圧縮ビデオでは、現状の姿勢推定モデルの性能が大幅に低下する。"
"提案手法は、低品質ビデオでの姿勢推定精度を大幅に向上させつつ、高品質ビデオでの性能も維持することができた。"
"本手法は、監視カメラ映像などの低品質データでも信頼性の高い歩容認識を実現するための有効な手段となる。"