Concepts de base
本文提出了一種名為 FINDER 的新型隨機優化器,它結合了基於隨機濾波的擬牛頓法更新,並針對大規模問題進行了優化,展現出在深度學習訓練和其他領域的應用潛力。
Résumé
論文概述
本研究論文提出了一種名為 FINDER(Filtering Informed Newton-like and Derivative-free Evolutionary Recursion)的新型隨機優化器,旨在解決大規模、非凸、甚至可能是非光滑目標函數的優化問題,特別是在深度神經網路訓練中的應用。
研究背景
傳統的確定性優化方法,如梯度下降法和牛頓法,在處理非凸問題時面臨著容易陷入局部最優解的挑戰。此外,牛頓法在大規模問題中需要計算海森矩陣及其逆矩陣,計算成本高昂。隨機搜索方法,如粒子群優化(PSO)和協方差矩陣自適應進化策略(CMA-ES),雖然能夠進行全局搜索,但在高維空間中效率低下。
FINDER 方法
FINDER 結合了隨機搜索和擬牛頓法的優點。它利用非線性隨機濾波方程來獲得一個無導數更新,該更新類似於採用目標函數逆海森矩陣的牛頓搜索。為了提高計算效率,FINDER 對更新進行了簡化,使其能夠線性縮放至高維空間。
實驗結果
FINDER 在一系列問題上進行了測試,包括 IEEE 基準測試函數、深度神經網路訓練以及物理信息深度網路(PINN)訓練。結果表明,FINDER 在收斂速度和解的質量方面均優於 Adam 等其他優化器。
主要貢獻
- 提出了一種基於隨機濾波的擬牛頓法更新方法,避免了直接計算海森矩陣及其逆矩陣。
- 提出了一種能夠線性縮放至高維空間的簡化更新方法。
- 在各種優化問題上進行了實驗驗證,證明了 FINDER 的有效性。
局限性和未來方向
- FINDER 的性能對超參數的選擇較為敏感。
- FINDER 在避免局部最優解方面的能力還有待進一步提高。
總結
FINDER 是一種很有潛力的新型隨機優化器,它結合了隨機搜索和擬牛頓法的優點,並針對大規模問題進行了優化。實驗結果表明,FINDER 在各種優化問題上均表現出色,特別是在深度學習訓練和其他領域的應用中具有廣闊的前景。
Stats
本文使用了多個 IEEE 基準測試函數,維度高達 5000 維。
在 MNIST 數據集上訓練了一個包含 575,050 個參數的深度神經網路。
在 CIFAR10 數據集上訓練了一個包含 775,190 個參數的卷積神經網路。
使用 FINDER 求解了 Burgers 方程,該方程是一個具有 3,441 個參數的偏微分方程。
使用 FINDER 求解了一個二維彈性力學問題,該問題具有 153,505 個參數。
使用 FINDER 求解了一個應變梯度塑性問題,該問題具有 33,666 個參數。
Citations
"Our proposal is on a new stochastic optimizer for non-convex and possibly non-smooth objective functions typically defined over large dimensional design spaces."
"Our specific scheme – acronymed FINDER (Filtering Informed Newton-like and Derivative-free Evolutionary Recursion), exploits the nonlinear stochastic filtering equations to arrive at a derivative-free update that has resemblance with the Newton search employing the inverse Hessian of the objective function."
"The performance of the new method vis-´a-vis the well-known Adam and a few others bears evidence to its promise and potentialities for large dimensional optimization problems of practical interest."