Core Concepts
1つのGPUを使用して大規模な顔認識モデルを高速に効率的にトレーニングする手法を提案する。
Abstract
本論文は、大規模な顔認識モデルのトレーニングを1つのGPUで高速に行う手法を提案している。
具体的には以下の3点が主な内容となっている:
移動ハールラーニングレート(MHLR)スケジューラの提案
損失関数の変化を監視し、学習率を適切なタイミングで調整することで、モデルの収束を高速化する
1つのGPUでも20エポックに相当する精度を5エポックで達成できる
大規模顔認識データセットでの検証
WebFace12Mなどの大規模データセットでMHLRを適用し、従来手法と同等の精度を1/4の時間で達成
様々なResNetモデルでの検証
ResNet18からResNet200まで、モデルサイズに応じた適切な学習率スケジューリングを実現
以上のように、MHLRは大規模顔認識モデルのトレーニングにおいて、計算リソースを大幅に削減しつつ高精度を維持できる手法であることが示された。
Stats
ResNet100をWebFace12Mデータセットで5エポックトレーニングすると、30時間で完了する
ResNet100をMS1MV3データセットで5エポックトレーニングすると、9時間で完了する
Quotes
"MHLR is able to train the model with 1/4 of its original training time on 1×GPU by sacrificing less than 1% accuracy."
"We conclude that large-scale face recognition training now faces the law of diminishing marginal utility, which means the cost increase rapidly in order to improve a small amount of the performance for FR models."