核心概念
本文提出了一種名為 SmartSplit 的新型聯邦學習框架,透過模型分割、設備選擇和動態記憶體管理等技術,有效解決了聯邦學習中模型訓練過程記憶體需求過高的問題,尤其是在資源受限的行動裝置上。
研究目標
本研究旨在解決聯邦學習 (FL) 在實際應用中面臨的關鍵挑戰:模型訓練過程中的高記憶體需求,尤其是在資源受限的行動裝置上。
研究背景
聯邦學習允許多個設備協作訓練共享模型,同時保護資料隱私。然而,隨著模型複雜性和規模的增加,訓練所需的記憶體空間成為限制聯邦學習部署的瓶頸。現有的記憶體優化技術,如梯度檢查點、微批次處理、模型尺寸縮減和主機-設備記憶體虛擬化,往往以犧牲訓練效率或模型準確性為代價來減少記憶體佔用。
SmartSplit 系統設計
為了解決上述問題,本研究提出了一種名為 SmartSplit 的新型聯邦學習框架,該框架透過模型分割、設備選擇和動態記憶體管理等技術,有效降低了設備端的記憶體佔用,同時保證了異構聯邦學習的訓練進度和模型準確性。
SmartSplit 採用三層架構:
中央管理器 (Central Manager):負責收集運行時資訊,進行客戶端選擇,並為每個本地模型確定分割層。
行動邊緣計算 (MEC) 管理器:協調本地設備,管理負載,並透過動態重新選擇和監控來提高訓練效率。
設備端管理器 (On-Device Manager):監控本地資料和系統配置文件,並透過成本感知的重新計算來優化模型訓練過程中的記憶體使用。
實驗結果
在多個基準資料集和模型上的實驗結果表明,SmartSplit 能夠顯著降低聯邦學習模型訓練的記憶體需求,同時保持甚至提高模型的準確性和訓練效率。
主要貢獻
確定了記憶體限制是阻礙設備端聯邦學習模型訓練的核心問題。
設計了 SmartSplit,這是一個透過模型分割打破異構聯邦學習記憶體限制的分層框架。
進行了廣泛的實驗,以評估 SmartSplit 在行動裝置和模擬測試平台上的有效性,結果證明 SmartSplit 能夠在三重異構環境中實現高效且低延遲的設備端聯邦學習訓練。
結論
SmartSplit 為解決聯邦學習中的記憶體瓶頸提供了一種有效的解決方案,為在資源受限的行動裝置上部署複雜的機器學習模型鋪平了道路。
統計資料
ResNet152 模型在批次大小為 32 時需要 5.58 GB 的記憶體。
現有行動裝置的可用 RAM 僅為 4 到 16 GB。
SmartSplit 可將 VGG16 模型的記憶體需求降低 100 倍,AlexNet 降低 50 倍,ResNet18 降低 25 倍,LeNet5 降低 2.7 倍。