核心概念
Adapproxは、ランダム低ランク行列近似を用いてアダムの第二モーメントを効率的に近似することで、メモリ使用量を大幅に削減しつつ、精度と収束速度を維持する新しい最適化手法である。
要約
本論文では、大規模な深層学習モデルの訓練において、メモリ消費が大きな課題となるアダム最適化手法の問題に取り組んでいる。
具体的には以下の取り組みを行っている:
- アダムの第二モーメントをランダム低ランク行列近似により効率的に近似する手法を提案した。
- 近似ランクを動的に調整するアダプティブな手法を開発し、精度とメモリ効率のバランスを取る。
- 更新方向と第一モーメントの類似度に基づいて更新量を調整する手法を提案し、収束速度と安定性を向上させた。
実験では、GPT-2の訓練と関連タスクにおいて、Adapproxがアダムと同等以上の性能を示しつつ、大幅なメモリ削減を実現できることを示した。具体的には、GPT-2 117Mモデルで34.5%から49.9%、345Mモデルで33.8%から49.9%のメモリ削減を達成した。さらに、第一モーメントを無効化することで、さらなる大幅なメモリ削減(84.5%から99.9%)も可能であることを示した。
統計
GPT-2 117Mモデルの訓練において、Adapproxはアダムと比べて34.5%から49.9%のメモリ削減を実現した。
GPT-2 345Mモデルの訓練において、Adapproxはアダムと比べて33.8%から49.9%のメモリ削減を実現した。
第一モーメントを無効化した場合、Adapproxはアダムと比べて84.5%から99.9%のメモリ削減を実現した。