本論文では、深層学習モデルのトレーニングに重み予測を導入する新しいフレームワーク「XGrad」を提案している。
具体的には以下の通り:
勾配ベース最適化手法(SGD with momentum、Adam、AdamW、AdaBelief、AdaM3など)を使ってDNNモデルをトレーニングする際、各ミニバッチ処理の前に、最適化手法の更新ルールに基づいて未来の重みを予測する。
予測した未来の重みを用いて順伝播と逆伝播を行う。これにより、トレーニング全体を通して、最適化手法は未来の重みに関する勾配を使ってパラメータを更新できる。
この方法により、勾配ベース最適化手法の収束と一般化が向上する。
実験結果から、XGradは基準の最適化手法と比べて、DNNモデルの精度を向上させることができることが示された。例えば、CIFAR-10データセットでSGDMを使う場合、XGradは平均0.98%のTop-1精度向上を達成した。また、WMT-16 EN→Deデータセットでのニューラル機械翻訳タスクでは、Adamと比べて0.76%の精度向上と0.74のBLEUスコア向上を得た。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Lei Guan,Don... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2305.18240.pdfDeeper Inquiries