Concepts de base
本文证明了在重尾噪声下,仅使用梯度归一化就能保证 SGD 的收敛,并改进了 NSGDC 和 NSGDC-VR 的收敛速度,同时证明了在二阶平滑条件下,加速方案可以进一步提高 NSGDC 的收敛速度。
这篇研究论文探讨了在重尾噪声下,用于非凸优化的不带裁剪的梯度归一化随机梯度下降(NSGDC)及其方差缩减变体(NSGDC-VR)。文章对两种算法的理论结果进行了显著改进,包括从收敛速度中去除了对数因子,并在噪声方差σ为零时恢复了与确定性情况相匹配的收敛速度。此外,文章还证明了,在假设个体 Lipschitz 平滑性的情况下,仅梯度归一化就足以确保 SGD 在重尾噪声下的收敛,而无需梯度裁剪。
此外,文章还介绍了加速非凸算法,该算法利用二阶 Lipschitz 平滑性在存在重尾噪声的情况下实现更快的收敛速度。这些发现让我们更深入地了解了如何优化梯度归一化和方差缩减技术,以便在具有挑战性的优化场景中实现稳健的性能。
研究在重尾噪声下,不带裁剪的梯度归一化随机梯度下降(NSGDC)及其方差缩减变体(NSGDC-VR)的收敛性。
探索梯度归一化在重尾噪声下对 SGD 收敛性的影响。
研究在二阶平滑条件下,加速方案对 NSGDC 收敛速度的影响。