Core Concepts
新しい確率的最適化手法であるSOFIMは、大規模な機械学習モデルの確率的最適化において、Hessian曲率情報を効率的に利用することを目指しています。
Abstract
この論文では、新しい確率的最適化手法であるSOFIMが紹介されています。SOFIMは、Fisher情報行列をHessianとして近似するために正則化されたFisher情報行列を使用し、Sherman-Morrison行列の逆行列計算を通じて勾配更新方向を直接見つけます。さらに、Adamのように、SOFIMは勾配の第一モーメントを使用して非定常な目標(異種データによって引き起こされる)の問題に対処します。正則化されたFisher情報行列とSherman-Morrison行列の逆行列計算は、SGD with momentumと同じ空間と時間の複雑さで収束速度が向上します。多くの実験では、提案されたSOFIMがSGD with momentumやNyström-SGD、L-BFGS、AdaHessianなどの最先端のNewton最適化手法よりも収束速度が速くなりました。
Stats
SOFIMはSGD with momentumと同じ空間と時間複雑性で収束速度が向上します。
Nyström-SGDやL-BFGS、AdaHessianなどのNewton最適化手法よりも優れた結果を示しました。
SOFIMは勾配更新方向を直接見つけるためにSherman-Morrison公式を使用します。
正則化されたFisher情報行列はHessian曲率情報を近似するために使用されます。
SOFIMは非定常な目標への対処策としてAdamと同様に勾配の第一モーメントを使用します。
Quotes
"SOFIM utilizes regularized Fisher information matrix as the Hessian of the loss function."
"SOFIM uses Sherman-Morrison formula of matrix inversion to directly find the Newton update direction."
"SOFIM outperforms SGD with momentum and several state-of-the-art Newton optimization methods."