核心概念
本文提出了一種基於李雅普諾夫函數的新穎方法,用於解決帶有不等式約束的凸優化問題,並推導出具有最優收斂速度的連續和離散時間加速方法。
摘要
文獻回顧:不等式約束凸優化問題的連續與離散時間加速方法
優化問題在統計機器學習、數據分析、經濟學、工程學和計算機科學等各個領域中自然而然地出現。自牛頓以來,人們提出了許多優化方法來解決最小化優化問題,包括牛頓法、梯度下降法、內點法、共軛梯度法和信賴域法。隨著現代數據集規模和複雜性的快速增長,人們越來越關注基於梯度的方法以及加速方法。
1983 年,Nesterov 在梯度下降的背景下引入了加速的概念,並證明了它比梯度下降能實現更快的收斂速度。隨後,加速思想被應用於各種優化問題,包括非凸優化、非歐幾里得優化、二次規劃、複合優化和隨機優化。
為了更好地理解加速現象,研究人員通過在連續時間內制定問題並通過離散化推導演算法,為加速方法的設計原則提供了見解。一些研究人員使用基於現有演算法的極限方案推導常微分方程 (ODE)。具體而言,Su 等人通過採用現有演算法的連續時間極限推導出 ODE,並使用與 ODE 相關的豐富工具箱(例如李雅普諾夫函數)分析了 ODE 的性質。Krichene 等人將 [20] 中獲得的結果擴展到非歐幾里得設置。Shi 等人研究了一種產生高分辨率微分方程的替代極限過程。或者,一些研究人員採用變分觀點,從拉格朗日框架而不是從極限論證推導 ODE。例如,受鏡像下降的連續時間分析的啟發,Wibisono 等人直接從底層拉格朗日量推導出 ODE,並使用李雅普諾夫函數建立了它們的穩定性。此外,Jordan 等人提出了一種系統的方法,通過採用時變哈密頓量和辛積分器將 [23] 中提出的 ODE 轉換為離散時間演算法。Wilson 等人在連續和離散時間內建立了估計序列技術與李雅普諾夫函數族之間的等價性,並利用這種聯繫對現有的加速演算法進行了簡單而統一的分析。
值得注意的是,無論在哪種情況下,連續時間視角都為加速現象提供了分析能力和直覺,以及為開發新的加速演算法提供了設計工具。通過 ODE 的數值離散化,已經獲得了一些求解無約束優化問題的新加速方法,例如,Chen 等人、Wang 等人、Luo 和 Chen、Bao 等人,僅舉幾例。許多其他論文也通過在連續時間公式中工作,為等式約束優化問題的研究做出了貢獻。例如,Fazlyab 等人將 [23, 26] 中提出的加速方法與拉格朗日力學之間的聯繫擴展到線性約束凸優化問題的對偶方法,並在連續時間動力系統中實現了指數收斂,並實現了 O(1/k2) 的收斂速度用於離散時間演算法。Zeng 等人將 [20] 中的連續時間模型擴展到等式約束優化問題,得到了一個具有原始變量和乘數變量的二階微分系統,並證明了其收斂速度為 O(1/t2)。He 等人和 Attouch 等人將 [34] 的框架擴展到可分離凸優化問題,並討論了不同參數下的收斂速度。
眾所周知,在優化問題中,不等式約束允許決策變量在一定範圍內變化,而不是嚴格固定在特定值。這種靈活性增加了建模和解決此類問題的難度。一些文獻討論了求解不等式約束優化問題的離散時間演算法;參見 [35, 36, 37] 及其參考文獻。然而,據我們所知,目前還沒有文獻從連續時間的角度解決不等式約束優化問題的加速方法的收斂速度。因此,在這個新方向上做出努力將是有趣且重要的。
因此,本文致力於從連續時間的角度研究求解不等式約束凸優化問題的新加速方法。更精確地說,我們考慮以下不等式約束凸優化問題 (ICCOP):
min x∈X f(x), s.t. gi(x) ≤ 0, ∀i ∈ I. (1.1)
其中 X ⊆ Rn 是一個凸緊集,f, gi : X → R 是實值凸函數,i ∈ I := {1, · · · , m}。與通過動力系統解決等式約束凸優化問題的已知工作相比,這裡的主要挑戰是克服需要某些新方法的不等式約束的麻煩。顯然,前面提到的論文中使用的方法不能直接應用於此。相反,需要仔細處理不等式約束,以實現加速方法。通過特別利用障礙法和李雅普諾夫理論以及不等式技術,我們能夠提出一些新的加速方法來解決 ICCOP。
本文的貢獻如下:
我們通過利用對數障礙函數 [3,第 11 節] 將 ICCOP 近似為無約束優化問題。這種方法不同於 [33] 中線性約束凸問題的對偶重構,後者僅產生次優間隙。
我們引入了一個新的 Bregman-Lagrangian 框架來推導連續時間動力系統,其中勢能由具有對數障礙函數的無約束優化問題表示,而動能由 Bregman 散度定義。我們的 Bregman-Lagrangian 框架不同於 [23、26、33] 中的相應框架。
在某些條件下,我們證明了連續時間動力系統呈指數收斂到最優解。此外,我們通過採用隱式離散化方法獲得了與底層動力系統的收斂速度相匹配的加速梯度方法,並通過使用包含附加序列的混合歐拉離散化,提出了另一種收斂速度為 O(1/k) 的加速梯度方法。