本研究論文題為「C2A:針對參數效率高的聯邦學習進行客戶端定制化適配」,探討了預先訓練的語言模型(PLM)在聯邦學習(FL)中的應用。雖然 PLM 具有跨領域的通用性,但其龐大的記憶體佔用對 FL 構成了重大挑戰,因為訓練模型必須在伺服器和客戶端之間分配。參數效率微調(PEFT)技術的出現為減少 FL 中的通信成本提供了一個潛在的解決方案,但研究發現,典型的 PEFT 方法在 FL 場景中往往會因客戶端之間的異質性而受到嚴重影響,導致收斂速度不穩定且緩慢。
為了解決這些限制,本文提出了一種基於超網路的新型 FL 框架,稱為客戶端定制化適配(C2A),它利用了客戶端上不同數據分佈的信息。C2A 的關鍵思想是通過超網路,根據客戶端數據分佈的信息生成針對每個客戶端的適配器參數,而不是簡單地將單個全局適配器擬合到所有異質數據分佈。通過學習採用不同的數據分佈為每個客戶端生成適配器,C2A 能夠在客戶端之間共享知識的同時,對各種非獨立同分佈(non-IID)條件進行穩健的訓練。此外,為了管理與超網路相關聯的大量參數,本文引入了分解超網路,從而在不犧牲性能的情況下顯著減少了參數數量。
通過在考慮標籤和語言異質性的真實 FL 場景中進行廣泛的評估,驗證了 C2A 的有效性。實驗結果清楚地表明,C2A 在各種非 IID 設置中都能夠應對客戶端的異質性,從而取得了最先進的結果。此外,該框架在各種下游任務中都顯著提高了訓練效率。最後,C2A 成功地減輕了非 IID 場景中本地客戶端之間的大客戶端漂移。
C2A 的核心策略是生成針對每個客戶端定制的 PEFT 模組,以減輕客戶端之間異質性的負面影響。為此,首先導出潛在向量來表示每個客戶端的數據分佈(第 3.2 節)。然後將得到的嵌入向量作為超網路的條件,以便生成針對每個客戶端定制的 PEFT 模組參數(第 3.3 節)。針對超網路引入的大量參數,本文有效地對超網路的權重進行了分解(第 3.4 節)。
在兩個真實的 FL 場景中評估了 C2A 的有效性:1)標籤分佈的異質性和 2)標籤和語言分佈的異質性。實驗結果表明,C2A 在幾乎所有設置中都取得了最先進的性能。此外,C2A 在多語言設置中取得了與完全微調相當的性能。這些結果表明,C2A 在分散式場景中對異質性更具彈性。
本文觀察到典型的 PEFT 方法在分散式場景中性能顯著下降。通過精心設計的分析,還表明典型的 PEFT 存在較大的客戶端漂移,導致收斂速度慢和性能下降。為了解決這些問題,本文提出了 C2A,這是一種基於超網路的新型 FL 框架,它通過整合每個客戶端的數據分佈來生成客戶端定制的適配器。實驗結果表明,C2A 在各種分散式場景中都取得了最先進的結果。此外,還驗證了 C2A 成功地減輕了 FL 場景中本地客戶端之間的大客戶端漂移問題。
翻譯成其他語言
從原文內容
arxiv.org
深入探究