Iutzeler, F., Pauwels, E., & Vaiter, S. (2024). Derivatives of Stochastic Gradient Descent in parametric optimization. Advances in Neural Information Processing Systems, 38.
本研究旨在探討隨機梯度下降(SGD)迭代的導數在參數優化問題中的行為。
作者將 SGD 迭代的導數遞迴公式解釋為一個不精確的 SGD 序列,並應用於一個與原始問題解的二階導數相關的二次參數優化問題。
SGD 迭代的導數在強凸性條件下收斂到解映射的導數,並且其行為在不同步長策略下表現出與原始 SGD 序列相似的特性。
這項研究為更好地理解隨機超參數優化和更普遍的隨機元學習策略鋪平了道路。
翻譯成其他語言
從原文內容
arxiv.org
深入探究