Główne pojęcia
深層学習における効率的な自然勾配降下法の提案とその性能評価
Streszczenie
この論文では、従来の第一次最適化手法と比べて、第二次最適化手法が収束を早めることができることが述べられています。しかし、深層学習においては計算効率の問題から第二次最適化手法はあまり使用されていません。そこで、本論文では新たな高速自然勾配降下(FNGD)手法を提案し、その効果を画像分類や機械翻訳タスクで実証しています。FNGDはKFACと比較して2.05倍の高速化を実現し、TransformerモデルではAdamWよりも24 BLEUスコア向上させつつ同等のトレーニング時間で結果を出しています。
Statystyki
FNGDはKFACと比較して2.05倍の高速化を実現する。
TransformerモデルではAdamWよりも24 BLEUスコア向上させつつ同等のトレーニング時間で結果を出す。
Cytaty
"Second-order methods can converge much faster than first-order methods by incorporating second-order derivatives or statistics."
"FNGD can achieve a speedup of 2.05× compared with KFAC."
"For the machine translation task with the Transformer, FNGD outperforms AdamW by 24 BLEU score while requiring almost the same training time."