核心概念
本文推導出 RMSprop 和 Adam 的隨機微分方程式 (SDE) 並提出平方根縮放規則,以在調整批量大小時調整學習率和自適應超參數,並通過實驗驗證了其有效性。
標題:論自適應梯度演算法的隨機微分方程式與縮放規則
作者:Sadhika Malladi, Kaifeng Lyu, Abhishek Panigrahi, Sanjeev Arora
機構:普林斯頓大學電腦科學系
本研究旨在推導出 RMSprop 和 Adam 的隨機微分方程式 (SDE) 近似值,並提出相應的縮放規則,以解決在調整批量大小時如何調整優化超參數的問題。