Core Concepts
限られたメモリ容量の端末でも、モデルの学習を可能にする手法を提案する。量子化と疎な更新を組み合わせることで、1000倍以上のメモリ削減を実現し、端末上での学習を可能にする。
Abstract
本論文では、256KBのメモリ容量しかない端末でも深層学習モデルの学習を可能にする手法を提案している。
まず、量子化された深層学習モデルの最適化が困難な問題に取り組むため、Quantization-Aware Scalingを提案する。これにより、量子化されたモデルの学習精度を浮動小数点モデルと同等まで改善できる。
次に、限られたメモリ容量に収まるよう、モデルパラメータの一部のみを更新する疎な更新手法を提案する。重要度の高いパラメータを選択的に更新することで、メモリ使用量を大幅に削減しつつ、高い精度を維持できる。
さらに、コンパイル時の自動微分や演算子の最適化など、システム面での工夫により、実際の端末上での学習を可能にしている。
提案手法により、PyTorch/TensorFlowと比べて1000倍以上のメモリ削減を実現し、256KBのメモリ容量の端末でも深層学習モデルの学習が可能となった。また、学習速度も大幅に向上し、端末上での学習の実現性を高めている。
Stats
提案手法により、PyTorch/TensorFlowと比べて1000倍以上のメモリ削減を実現した。
256KBのメモリ容量の端末でも深層学習モデルの学習が可能となった。
学習速度も大幅に向上し、20倍以上の高速化を実現した。
Quotes
"On-device training enables the model to adapt to new data collected from the sensors by fine-tuning a pre-trained model. Users can benefit from customized AI models without having to transfer the data to the cloud, protecting the privacy."
"Our framework is the first solution to enable tiny on-device training of convolutional neural networks under 256KB SRAM and 1MB Flash without auxiliary memory, using less than 1/1000 of the memory of PyTorch and TensorFlow while matching the accuracy on tinyML application VWW [20]."