toplogo
登入

正規化近似擬牛頓法在非光滑複合問題上的全局非漸近超線性收斂速度


核心概念
本論文提出兩種正規化近似擬牛頓法,用於解決非光滑的凸加性複合問題,並證明其具有全局非漸近超線性收斂速度,不受演算法初始化影響。
摘要

正規化近似擬牛頓法在非光滑複合問題上的全局非漸近超線性收斂速度

edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

本論文針對非光滑凸加性複合問題,提出了兩種採用對稱秩 1 度量更新(SR1 擬牛頓)的正規化近似擬牛頓法。這兩種演算法都避免使用線搜尋或其他信賴域策略。對於每種演算法,論文都證明了其具有超線性收斂速度,且該速度與演算法的初始化無關。立方正規化方法的收斂速度為 C/N^(1/2) 的 N/2 次方,其中 N 是迭代次數,C 是某個常數;而另一種梯度正規化方法的收斂速度為 C/N^(1/4) 的 N/2 次方。據我們所知,這些是正規化擬牛頓法和正規化近似擬牛頓法的首批全局非漸近超線性收斂速度。論文還在機器學習的兩個應用中驗證了這些理論特性。
牛頓型方法由於其快速收斂的特性,數十年來一直受到廣泛研究。然而,牛頓法每次迭代的計算成本都很高,使其難以應用於大規模問題。因此,人們開發了擬牛頓法,以避免顯式計算目標函數的 Hessian 矩陣(二階導數)[14]。擬牛頓法的思想是利用目標函數在鄰近點處梯度的差值等一階信息,用一個矩陣來逼近 Hessian 矩陣。基於這一思想,人們開發了許多變種,包括 BFGS [6]、SR1 [12, 5]、DFP [12, 19]。傳統上,牛頓法和擬牛頓法的收斂性保證都是局部的,即它們要求起始點充分接近最優點,除非採用信賴域或線搜尋等全局化策略 [11]。 由於 Nesterov 和 Polyak 的開創性工作 [34],這一狀況發生了改變。他們為牛頓法提出了一種立方正規化策略,該策略保證了全局收斂,而無需線搜尋。最近,為了實現相同的目標,人們將梯度正規化引入牛頓法 [33]。雖然這些正規化策略穩定化了演算法,並允許全局收斂,但它們並沒有解決更新步驟中涉及目標函數 Hessian 矩陣的巨大計算成本。因此,很自然地,人們以此為靈感,設計出能夠全局收斂且適用於大規模問題的正規化擬牛頓法。然而,即使對於強凸函數,問題仍然存在:如何遵循開創性工作 [34, 33] 的思路,設計出全局收斂的立方(或梯度)正規化擬牛頓法? 擬牛頓型方法的一個顯著特性是其超線性收斂速度 [6, 7, 15, 18, 20],然而,在多數情況下,這種速度只能在局部證明,或者只是漸近速度。最近,[38] 為貪婪擬牛頓法提供了首個非漸近超線性收斂速度,並在 [40, 25] 中將其細化為受限 Broyden 族擬牛頓法的顯式速度。[44] 證明了 SR1 方法的首個非漸近顯式超線性收斂速度。雖然這些速度是非漸近的,但它們仍然是局部的,這意味著初始化需要充分接近最優點。在這個意義上,定義了最優點周圍的一個局部區域,在該區域內可以觀察到超線性收斂速度。這就引出了一個自然而然的問題: 是否可以設計出具有全局收斂性和全局非漸近超線性收斂速度的擬牛頓法? 在本文中,我們通過提出立方和梯度正規化擬牛頓法,對上述兩個問題給出了肯定的答案。在表 1 中,我們列出了最先進擬牛頓法的主要特點和局限性,並將我們提出的正規化擬牛頓法置於這一背景下,我們將在下文中詳細解釋。與表 1 和表 2 中提到的其他工作不同,我們的方法實現了非漸近超線性收斂速度,該速度與初始化無關,並且無需使用昂貴的線搜尋或信賴域子程序。全局化是通過正規化實現的,超線性收斂的機制體現在迭代次數中,而不是最優點周圍難以估計的局部區域。我們沒有像通常那樣假設難以驗證的 Dennis-Moré 收斂準則 [10, 28],而是依賴於 Hessian 矩陣的 Lipschitz 連續性。

深入探究

這兩種正規化近似擬牛頓法在實際應用中,如何選擇合適的正規化參數以達到最佳性能?

在實際應用中,選擇合適的正規化參數對於演算法的性能至關重要。以下是一些針對兩種正規化近似擬牛頓法選擇正規化參數的建議: Cubic SR1 PQN (Algorithm 1): LH (Hessian Lipschitz 常數): LH 的選擇對演算法的性能影響很大。理想情況下,我們希望使用精確的 LH 值,但這在實踐中通常難以獲得。以下是一些常用的策略: 估計 LH: 可以使用回溯線性搜尋來估計 LH,確保每次迭代都滿足下降條件。 自適應調整 LH: 在迭代過程中動態調整 LH,例如根據先前迭代中觀察到的曲率信息進行調整。 初始正規化參數 (r−1): 初始正規化參數 r−1 影響著演算法早期的行為。通常可以將其設置為 0 或一個較小的正值。 Grad SR1 PQN (Algorithm 2): µ (強凸性參數): 與 LH 類似,µ 的精確值通常難以獲得。可以使用回溯線性搜尋或自適應調整策略來處理。 ¯κ (Hessian 上界): ¯κ 控制著擬牛頓矩陣的條件數。較小的 ¯κ 會導致更穩定的迭代,但可能會減慢收斂速度。可以根據問題的具體情況進行調整。 初始正規化參數 (λ0): 通常可以將 λ0 設置為 0。 總體而言,選擇正規化參數需要在穩定性和收斂速度之間取得平衡。以下是一些通用的建議: 從保守的參數開始: 可以先從較小的 LH、較大的 µ 和 ¯κ 開始,然後逐步調整以提高性能。 使用回溯線性搜尋: 回溯線性搜尋可以幫助自動調整正規化參數,確保每次迭代都滿足下降條件。 根據經驗調整: 可以根據問題的具體情況和經驗,對正規化參數進行微調以達到最佳性能。

是否存在其他類型的正規化策略,可以進一步提升擬牛頓法在非光滑複合問題上的收斂速度?

除了文中提到的 cubic regularization 和 gradient regularization 之外,確實存在其他正規化策略可以應用於擬牛頓法,並可能進一步提升其在非光滑複合問題上的收斂速度。以下列舉幾種: Adaptive Regularization: 自適應正規化方法可以根據迭代過程中的信息動態調整正規化項。例如,可以根據當前迭代點附近的曲率信息或函數值下降情況來調整正規化參數。 Non-diagonal Regularization: 文中提到的方法主要使用對角矩陣進行正規化。可以考慮使用非對角矩陣進行正規化,例如使用 Hessian 矩陣的近似或者其他可以捕捉更多曲率信息的矩陣。 Proximal Operator Regularization: 對於非光滑複合問題,可以考慮直接對 proximal operator 進行正規化,例如在計算 proximal operator 時加入一個平滑項。 需要注意的是,這些正規化策略的有效性需要根據具體問題進行驗證,並且可能需要設計相應的理論分析來保證演算法的收斂性。

這些正規化近似擬牛頓法的設計理念,是否可以應用於解決其他類型的優化問題,例如非凸優化問題?

這些正規化近似擬牛頓法的設計理念 在一定程度上 可以應用於解決其他類型的優化問題,例如非凸優化問題。 適用性: 正規化的思想: 在非凸優化中,正規化同樣可以用於穩定迭代過程、避免陷入局部最優解。 近似 Hessian 資訊: 擬牛頓法利用歷史資訊近似 Hessian 矩陣的思想,在非凸優化中也同樣適用。 挑戰和調整: 收斂性分析: 非凸優化問題的收斂性分析更加困難,需要設計新的分析方法來保證演算法的收斂性。 正規化參數選擇: 正規化參數的選擇在非凸優化中更加重要,需要更加謹慎地選擇參數以避免陷入局部最優解。 鞍點問題: 非凸優化問題中存在鞍點問題,需要設計相應的策略來逃離鞍點。 總體而言,將正規化近似擬牛頓法應用於非凸優化問題需要克服一些挑戰,但其核心思想仍然具有參考價值。 可以通過設計新的正規化策略、調整演算法框架以及發展新的理論分析方法,將這些方法推廣到更廣泛的優化問題中。
0
star