核心概念
本文提出了一種名為 FORMDA 的加速一階正則化動量下降上升算法,用於解決機器學習中常見的隨機非凸-凹極小化極大化問題,並證明了該算法在達到ε-穩定點時只需要 ˜O(ε−6.5) 的迭代複雜度,優於現有單循環算法。
摘要
文獻回顧
- 凸-凹極小化極大化問題已有大量研究,可參考 [7, 22, 31, 34, 36–38, 47, 57]。
- 確定性非凸-凹極小化極大化問題方面,現有算法主要分為嵌套循環算法和單循環算法。
- 嵌套循環算法 [20, 33, 39, 42, 46],其中 Lin 等人 [23] 提出的算法具有 ˜O(ε−2.5) 的複雜度,是目前最好的。
- 單循環算法包括梯度下降上升 (GDA) 方法 [28]、混合塊逐次逼近 (HiBSA) 算法 [29]、交替梯度投影算法 [40, 50]、平滑 GDA 算法 [56] 等。
- 確定性非凸-非凹極小化極大化問題方面,現有算法包括多步梯度下降上升算法 [43]、交替 GDA 算法 [54]、樂觀對偶外推 (OptDE) 方法 [44]、阻尼外梯度方法 [18]、零階交替梯度下降上升 (ZO-AGDA) 算法 [53] 等。
本文貢獻
本文針對隨機非凸-凹極小化極大化問題,提出了一種名為 FORMDA 的加速一階正則化動量下降上升算法。
- FORMDA 算法在每次迭代中計算並使用正則化函數 ˜Gk(x, y; ζ) 的梯度,而非 Acc-MDA 算法中使用的 G(x, y; ζ) 的梯度。
- FORMDA 算法適用於一般的非凸-凹極小化極大化問題,而 Acc-MDA 算法僅適用於非凸-強凹極小化極大化問題。
- 本文證明了 FORMDA 算法在達到 ε-穩定點時只需要 ˜O(ε−6.5) 的迭代複雜度,優於現有單循環算法。
文章結構
本文首先回顧了現有的確定性極小化極大化問題算法,然後介紹了 FORMDA 算法,並分析了其迭代複雜度。最後,文章通過數值實驗驗證了 FORMDA 算法的有效性。
統計資料
FORMDA 算法的迭代複雜度為 ˜O(ε−6.5)。
引述
"The iteration complexity of the algorithm is proved to be ˜O(ε−6.5) to obtain an ε-stationary point, which achieves the best-known complexity bound for single-loop algorithms to solve the stochastic nonconvex-concave minimax problems under the stationarity of the objective function."