本論文では、大規模な深層学習モデルの訓練において、メモリ消費が大きな課題となるアダム最適化手法の問題に取り組んでいる。
具体的には以下の取り組みを行っている:
実験では、GPT-2の訓練と関連タスクにおいて、Adapproxがアダムと同等以上の性能を示しつつ、大幅なメモリ削減を実現できることを示した。具体的には、GPT-2 117Mモデルで34.5%から49.9%、345Mモデルで33.8%から49.9%のメモリ削減を達成した。さらに、第一モーメントを無効化することで、さらなる大幅なメモリ削減(84.5%から99.9%)も可能であることを示した。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies