核心概念
高斯平滑是一種簡單而有效的技術,可以提升隨機梯度下降演算法(例如 SGD 和 Adam)在深度學習中的效能,尤其是在存在雜訊的情況下。
這篇研究論文探討了高斯平滑技術應用於深度學習中兩種主要優化方法:隨機梯度下降(GSmoothSGD)和 Adam(GSmoothAdam)的效能提升。
高斯平滑的優點
高斯平滑通過減弱損失函數中的微小波動,降低了基於梯度的演算法收斂到局部最小值的風險。這種技術簡化了損失函數,同時增強了模型對雜訊的魯棒性,並改善了泛化能力,有助於演算法更有效地收斂到全局最小值。
現有方法的缺點和解決方案
現有方法通常依賴於零階近似,由於自動微分效率低下,這增加了訓練時間。為了克服這個問題,本文推導了用於前饋和卷積網路的高斯平滑損失函數,提高了計算效率。
研究結果
數值實驗證明,與未經平滑處理的演算法相比,本文提出的平滑演算法具有更好的效能,證實了理論上的優勢。
主要貢獻
將 GSmoothSGD 正式化,並證明了 L-smooth 函數和任意平滑參數序列的收斂性結果。
引入了 GSmoothAdam,並證明了 L-smooth 函數的梯度幾乎可以肯定地收斂到一個固定點。
推導了高斯平滑前饋(FFNN)和卷積(CNN)神經網路的數學公式,並使用 Python 實現了新的架構。
提供了數值證據,證明了平滑技術在隨機梯度設定中的有效性。
統計資料
在 MNIST 和 CIFAR-10 數據集上訓練 CNN,並添加了標準差為 0、0.25、0.5、0.75 和 1 的高斯雜訊。
隨機更改了 0%、10%、20%、30% 和 40% 訓練圖像的標籤。
使用批次大小為 1,以均方誤差作為損失函數。
使用 5 折交叉驗證在無雜訊圖像上調整模型的超參數。