核心概念
Local Superior Soups (LSS) 是一種基於模型插值的技術,透過在本地訓練過程中規律地插值模型,促進探索連接的低損失盆地,從而減少跨 silo 聯邦學習中的通訊回合數,並提高預先訓練模型的適應性。
摘要
文獻資訊:
Chen, M., Jiang, M., Zhang, X., Dou, Q., Wang, Z., & Li, X. (2024). Local Superior Soups: A Catalyst for Model Merging in Cross-Silo Federated Learning. Advances in Neural Information Processing Systems, 38.
研究目標:
本研究旨在解決跨 silo 聯邦學習中,如何在最小化通訊回合數的同時,優化基於異質數據微調模型的全局性能。
方法:
- 本文提出了一種名為 Local Superior Soups (LSS) 的新型模型插值方法,用於聯邦學習中的本地訓練。
- LSS 採用隨機模型插值策略,避免了傳統模型選擇階段的高昂計算成本。
- 引入「多樣性」和「親和力」兩個正則化項,分別促進低損失區域的擴展和防止模型訓練發散。
- 在本地訓練過程中,LSS 透過平均多個模型的權重來創建插值模型,並使用該模型進行前向和後向傳播,更新當前活動模型的權重。
主要發現:
- 實驗結果顯示,LSS 能夠顯著減少通訊回合數,並在僅經過少量通訊回合後即可達到優於其他聯邦學習方法的性能。
- 在標籤偏移和特徵偏移兩種非獨立同分布數據場景下,LSS 在 FMNIST、CIFAR-10、Digit5 和 DomainNet 四個數據集上均取得了最佳準確率。
- 消融實驗證明了親和力損失、多樣性損失和平均模型數量對 LSS 性能的影響。
主要結論:
LSS 是一種有效且高效的聯邦學習方法,能夠在保持模型性能的同時顯著減少通訊成本,尤其適用於預先訓練模型的適應性訓練。
意義:
本研究為理解和開發基於模型融合的聯邦學習方法提供了新的思路,並為解決數據異質性帶來的挑戰提供了有效的解決方案。
局限性和未來研究方向:
- LSS 方法以增加訓練記憶體消耗為代價來減少通訊回合數,未來研究可以探索更節省記憶體的部署方式。
- 本文主要關注視覺任務,未來可以將 LSS 擴展到語言和多模態場景。
- 在醫療保健等敏感領域應用聯邦學習時,需要仔細權衡性能和通訊效率,避免過度減少通訊回合數而影響醫療決策的可靠性。
統計資料
使用 Dirichlet 分布(係數 α = 1.0)將數據集劃分為五個客戶端,產生不平衡的標籤分佈。
對於 DomainNet 數據集,使用在 ImageNet 上預先訓練的 ResNet50 作為基礎模型。
對於其他數據集,使用在 ImageNet 上預先訓練的 ResNet-18 作為基礎模型。
訓練優化器使用 Adam 優化器,學習率為 5e-4,訓練批次大小為 64。
對於常用的聯邦學習方法,將其本地更新步驟設置為 8。
對於 SWA、SWAD 和 LSS 方法,每個模型平均訓練 8 個步驟,默認平均模型數量為 4。
對於模型融合方法和 DiWA,訓練 32 個模型,每個模型訓練 8 個步驟。
引述
"To enjoy the connected low-loss valley benefits of model soup-based methods [52, 43] without burdening local training, we propose an efficient and local model interpolation-based method, called Local Superior Soups (LSS)."
"Our method aims to minimize the distance between the local fine-tuned model and the pre-trained initialized global model while maximizing the distance between the model soups ingredients (i.e., the models to be averaged)."