核心概念
本文提出了一種名為 L2GDV 的聯邦學習算法,透過引入可變步長來解決正則化經驗風險最小化問題,並在非凸和強凸設定下分析了算法的收斂性。
本論文研究了一種名為 L2GDV 的聯邦學習算法,該算法是一種用於解決涉及全局誤差函數和正則化項的正則化經驗風險最小化問題的隨機梯度下降 (SGD) 方法。全局誤差函數與各個本地聚合損失相關聯。正則化參數 λ 和梯度隨機估計的概率水平參數 p 可以控制中央機器和本地機器之間的通信級別。作者透過允許靈活的步長來改進現有方法,並對算法的收斂性進行了新的分析。
分析包括兩部分,分別對應於非凸設定和標準強凸設定。在非凸設定下,作者假設了一個 PL 條件並推導了收斂速度。在強凸設定下,作者提出了一個期望收斂的充分必要條件,這表明收斂需要一個變化的步長序列。
主要貢獻
將算法 (4) 的收斂結果擴展到非凸情況,其中每個函數 fi 都是 L-smooth,F 滿足 PL 條件(定義見下文),並且步長是固定的。
對於非凸情況,當步長序列以 αk = α1k−θ 的形式多項式衰減時,提供了收斂速度,其中 0 < θ ≤ 1 且 α1 > 0。
在每個函數 fi 都是 L-smooth 且 µ-強凸的凸情況下,證明了當且僅當 limk→∞αk = 0 且 P∞ k=1 αk = ∞ 時,算法 (7) 收斂於 limk→∞E[∥xk −x(λ)∥2] = 0,其中 L, µ > 0 且 0 < αk ≤ 1 2L。
對於凸情況,當步長序列以 αk = α1k−θ 的形式多項式衰減時,提供了收斂速度,其中 0 < θ ≤ 1 且 0 < α1 ≤ 1 2L。
在非凸和凸情況下進行了實驗,以證明所提出方法與聯邦學習中的強基準相比的有效性。
方法論
問題陳述
本文中的優化目標是一個正則化的 ERM 問題:
min_{x1,...,xn∈Rd} {F(x) := f(x) + λψ(x)},
其中:
f(x) := 1/n Σ_{i=1}^n fi(xi) 是全局誤差函數,
ψ(x) := 1/(2n) Σ_{i=1}^n ∥xi − ¯x∥^2 是正則化項,
λ ≥ 0 是正則化參數,
x := (xi)_{i=1}^n ∈ R^{nd} 是模型向量,
¯x = 1/n Σ_{i=1}^n xi 是本地模型參數的平均值。
參數 λ 控制全局誤差和正則化項的相對重要性。當 λ = 0 和 λ = ∞ 時,會出現兩種極端情況。前者意味著我們在不需要通信的情況下解決 n 個本地最小化問題。後者意味著正則化項強制所有本地模型 xi 等於平均模型 ¯x,這與全局問題 (1) 相同。我們透過令 0 < λ < ∞ 來共同考慮本地和全局優化問題,其中第一項鼓勵本地模型單獨更新,而第二項保證本地模型彼此接近。
算法:L2GDV
作者提出了 L2GDV 來解決問題 (6)。L2GDV 在訓練過程中利用了變化的步長。具體來說,更新規則採用以下形式:
xk+1 = xk − αkG(xk),
其中 {αk}_{k∈N} 是算法的步長序列。在本文中,作者考慮了一個通用的衰減步長序列,其中 αk = α1k−θ,而 G(x) 是由 (3) 給出的 F 在 x ∈ R^{nd} 處的非均勻隨機梯度。
實驗結果
作者在一個著名的真實數據集 MNIST 上進行了實驗,該數據集經常用於先前關於聯邦學習的工作中。具體來說,MNIST 是一個用於分類問題的數據集,其形式為具有 28 × 28 像素的手寫數字(即 0-9)。此外,MNIST 包含一個大小為 60,000 的訓練集和一個大小為 10,000 的測試集。
作者使用卷積神經網絡 (CNN) 和多項邏輯回歸 (LR) 分別研究非凸和凸情況。此外,作者考慮了 MNIST 數據集的兩種劃分方法,即 IID 和 Non-IID,劃分細節在 [4] 的第 3 節中指定。為了簡單起見,作者將它們表示為 MNIST IID 和 MNIST Non-IID。作者將提出的 L2GDV 與三個強基準進行了比較,分別是 FedAvg [4]、FedProx [23] 和 L2GD [12]。對於每個基準,作者使用默認的最佳超參數以進行公平的性能比較。特別是,客戶端數量設置為 100,這意味著每個客戶端有 600 個樣本。根據理論結果,作者對提出的 L2GDV 採用多項式衰減步長序列,形式為 αk = α1k−θ,並將參數調整為 θ = 0.3。
總結
在本文中,作者研究了一種聯邦學習算法 L2GDV,它是一種用於解決涉及全局誤差函數和正則化項的正則化經驗風險最小化問題的 SGD 方法。全局誤差函數與各個本地聚合損失相關聯。正則化參數 λ 和梯度隨機估計的概率水平參數 p 可以控制中央機器和本地機器之間的通信級別。作者透過允許靈活的步長來改進現有方法,並對算法的收斂性進行了新的分析。
分析包括兩部分,分別對應於非凸設定和標準強凸設定。在非凸設定下,作者假設了一個 PL 條件並推導了收斂速度。在強凸設定下,作者提出了一個期望收斂的充分必要條件,這表明收斂需要一個變化的步長序列。
統計資料
MNIST 數據集包含一個大小為 60,000 的訓練集和一個大小為 10,000 的測試集。
客戶端數量設置為 100,每個客戶端有 600 個樣本。
步長序列衰減參數 θ = 0.3。