この論文では、従来の第一次最適化手法と比べて、第二次最適化手法が収束を早めることができることが述べられています。しかし、深層学習においては計算効率の問題から第二次最適化手法はあまり使用されていません。そこで、本論文では新たな高速自然勾配降下(FNGD)手法を提案し、その効果を画像分類や機械翻訳タスクで実証しています。FNGDはKFACと比較して2.05倍の高速化を実現し、TransformerモデルではAdamWよりも24 BLEUスコア向上させつつ同等のトレーニング時間で結果を出しています。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Xinwei Ou,Ce... om arxiv.org 03-07-2024
https://arxiv.org/pdf/2403.03473.pdfDiepere vragen