核心概念
本論文提出兩種正規化近似擬牛頓法,用於解決非光滑的凸加性複合問題,並證明其具有全局非漸近超線性收斂速度,不受演算法初始化影響。
摘要
正規化近似擬牛頓法在非光滑複合問題上的全局非漸近超線性收斂速度
本論文針對非光滑凸加性複合問題,提出了兩種採用對稱秩 1 度量更新(SR1 擬牛頓)的正規化近似擬牛頓法。這兩種演算法都避免使用線搜尋或其他信賴域策略。對於每種演算法,論文都證明了其具有超線性收斂速度,且該速度與演算法的初始化無關。立方正規化方法的收斂速度為 C/N^(1/2) 的 N/2 次方,其中 N 是迭代次數,C 是某個常數;而另一種梯度正規化方法的收斂速度為 C/N^(1/4) 的 N/2 次方。據我們所知,這些是正規化擬牛頓法和正規化近似擬牛頓法的首批全局非漸近超線性收斂速度。論文還在機器學習的兩個應用中驗證了這些理論特性。
牛頓型方法由於其快速收斂的特性,數十年來一直受到廣泛研究。然而,牛頓法每次迭代的計算成本都很高,使其難以應用於大規模問題。因此,人們開發了擬牛頓法,以避免顯式計算目標函數的 Hessian 矩陣(二階導數)[14]。擬牛頓法的思想是利用目標函數在鄰近點處梯度的差值等一階信息,用一個矩陣來逼近 Hessian 矩陣。基於這一思想,人們開發了許多變種,包括 BFGS [6]、SR1 [12, 5]、DFP [12, 19]。傳統上,牛頓法和擬牛頓法的收斂性保證都是局部的,即它們要求起始點充分接近最優點,除非採用信賴域或線搜尋等全局化策略 [11]。
由於 Nesterov 和 Polyak 的開創性工作 [34],這一狀況發生了改變。他們為牛頓法提出了一種立方正規化策略,該策略保證了全局收斂,而無需線搜尋。最近,為了實現相同的目標,人們將梯度正規化引入牛頓法 [33]。雖然這些正規化策略穩定化了演算法,並允許全局收斂,但它們並沒有解決更新步驟中涉及目標函數 Hessian 矩陣的巨大計算成本。因此,很自然地,人們以此為靈感,設計出能夠全局收斂且適用於大規模問題的正規化擬牛頓法。然而,即使對於強凸函數,問題仍然存在:如何遵循開創性工作 [34, 33] 的思路,設計出全局收斂的立方(或梯度)正規化擬牛頓法?
擬牛頓型方法的一個顯著特性是其超線性收斂速度 [6, 7, 15, 18, 20],然而,在多數情況下,這種速度只能在局部證明,或者只是漸近速度。最近,[38] 為貪婪擬牛頓法提供了首個非漸近超線性收斂速度,並在 [40, 25] 中將其細化為受限 Broyden 族擬牛頓法的顯式速度。[44] 證明了 SR1 方法的首個非漸近顯式超線性收斂速度。雖然這些速度是非漸近的,但它們仍然是局部的,這意味著初始化需要充分接近最優點。在這個意義上,定義了最優點周圍的一個局部區域,在該區域內可以觀察到超線性收斂速度。這就引出了一個自然而然的問題:
是否可以設計出具有全局收斂性和全局非漸近超線性收斂速度的擬牛頓法?
在本文中,我們通過提出立方和梯度正規化擬牛頓法,對上述兩個問題給出了肯定的答案。在表 1 中,我們列出了最先進擬牛頓法的主要特點和局限性,並將我們提出的正規化擬牛頓法置於這一背景下,我們將在下文中詳細解釋。與表 1 和表 2 中提到的其他工作不同,我們的方法實現了非漸近超線性收斂速度,該速度與初始化無關,並且無需使用昂貴的線搜尋或信賴域子程序。全局化是通過正規化實現的,超線性收斂的機制體現在迭代次數中,而不是最優點周圍難以估計的局部區域。我們沒有像通常那樣假設難以驗證的 Dennis-Moré 收斂準則 [10, 28],而是依賴於 Hessian 矩陣的 Lipschitz 連續性。