Główne pojęcia
本文提出了一種正則化混合牛頓法(RMNM),用於最小化實數變數和複數變數的實值函數,並證明了該方法在訓練神經網絡方面優於傳統方法。
本文修改並應用了最近提出的混合牛頓法 (MNM),該方法最初設計用於最小化複數變數的實值函數,通過將函數擴展到複數空間來最小化實數變數的實值函數。 作者證明了任意正則化都保留了該方法良好的局部收斂性,並構造了一種特殊類型的正則化,用於防止收斂到複數最小值。 作者比較了應用於訓練具有實參數和複參數的神經網絡的幾種方法變體。
本文主要研究了正則化混合牛頓法 (RMNM) 的性質。 它是在 [1] 中研究的混合牛頓法 (MNM) 的發展。 作者首先簡要回顧了 MNM 的公式和性質,並通過正則化來激勵其擴展。
MNM 用於最小化以下形式的函數:
f(z) = Σ_{j=0}^{m-1} |g_j(z)|^2,
其中函數 g_j 是複數變數 z ∈ C^n 中的全純函數。 它是一種迭代方法,從點 z_0 ∈ C^n 開始,並根據以下公式生成迭代:
z_{k+1} = z_k - (∂^2f(z_k)/∂¯z∂z)^{-1} ∂f(z_k)/∂¯z,
其中導數定義為 Wirtinger 導數並在當前點 z_k 處評估。
該方法的主要優點總結在以下定理 [1] 中。
定理 1. MNM 中使用的混合導數可以通過以下公式計算:
∂^2f/∂¯z∂z = Σ_{j=0}^{m-1} dg_j/dz (dg_j/dz)^⊤
因此是半正定的。
令 ẑ 為函數 f 的臨界點,即 ∂f(ẑ)/∂¯z = 0_n。 在非退化情況下(當全 Hessian ∂^2f(ẑ)/∂(z,¯z)^2 可逆時),迭代在 ẑ 附近的 z 的行為漸近地就像由線性動力系統驅動一樣,z_{k+1} = ẑ + L(z_k - ẑ) + O(∥z_k - ẑ∥^2),其中 L 是一個 R 線性算子。 如果 ẑ 是 f 的局部最小值,則 L 是收縮的。 如果 ẑ 是 f 的鞍點,則 L 具有排斥方向。 這意味著 f 的最小值被吸引盆地包圍,而對鞍點的收斂(如果可能的話)相對於迭代的微小擾動是不穩定的。 與全牛頓法相比,MNM 的另一個優點是只需要計算 Hessian 矩陣的 1/4。 在數值實驗中,觀察到優越的全局收斂特性 [1]。
在某些情況下(這也與電信中的訓練模型相關),混合 Hessian 可能會退化。 這可以通過添加正則化項來解決,並且在 [1] 中證明,當退化來自某種類型的對稱群時(如在上述應用中那樣),理論上仔細選擇此正則化器不會改變迭代順序。 另一個實驗觀察結果是,在遠離臨界點的情況下,未正則化的 MNM 可能表現出不穩定的行為,但這可以通過添加正則化項來緩解。
在本文中,作者更徹底地考慮了正則化對 MNM 收斂特性的影響。 作者表明,即使使用任意正定正則化矩陣,定理 1 的陳述也保持不變。 第二個主題是使用 MNM 最小化 R^n 上的實解析函數。 這可以通過將它們擴展到 C^n 後將它們視為複數變數的函數來完成。 在這裡,作者提出了一種正則化,它同時 fulfills 將最小化器推向實子空間 R^n ⊂ C^n 的懲罰作用。