核心概念
RMSPropとその運動量拡張の収束率がℓ1ノルムで√d/T^(1/4)であることを示した。これは勾配の上界制約を必要としない。
摘要
本論文では、クラシックなRMSPropとその運動量拡張の収束率を分析している。具体的には以下の点を示した:
- RMSPropとその運動量拡張の収束率がℓ1ノルムで√d/T^(1/4)であることを証明した。これは勾配の上界制約を必要としない。
- この収束率は、T、L、f(x1)-f*、σsに関して最適下限と一致する。ただし、次元dに関しては最適性が明らかではない。
- ℓ2ノルムの場合、SGDと同等の収束率を得るのが難しいが、ℓ1ノルムを用いることで√dの項を維持できる。これは実深層ニューラルネットワークで成り立つ∥∇f(x)∥1 = Θ(√d∥∇f(x)∥2)に基づく。
- 既存研究と比較すると、本論文の収束率はAdaGradやRMSPropなどの適応型勾配法の理論的収束速度を大幅に改善している。
統計資料
∥∇f(xk)∥1 ≤ e
O(√d/T^(1/4) * √(σ^2_sL(f(x1)-f*)) + √d/√T * √(L(f(x1)-f*)))