核心概念
フェデレーテッド学習において、大規模言語モデルのパラメータにアクセスせずに、小規模モデルのチューニングと知識蒸留を組み合わせることで、効率的かつプライバシーを保護しつつ大規模モデルの性能を引き出すことができる。
摘要
本論文は、大規模言語モデルを資源制限デバイスで効率的かつプライバシーを保護しつつ微調整する新しいフレームワーク「FedPT」を提案している。
FedPTの主な特徴は以下の通り:
- 大規模言語モデルのパラメータにアクセスせずに、小規模モデルのチューニングと知識蒸留を組み合わせることで、大規模モデルの性能を引き出す。
- 各デバイスでは小規模モデルのみをチューニングするため、計算、通信、メモリの使用量を大幅に削減できる。
- 大規模モデルの予測分布を利用してプロキシチューニングを行うことで、直接チューニングと同等の性能を達成できる。
- 知識蒸留により、小規模モデルの性能をさらに向上させることができる。
実験の結果、FedPTは直接チューニングと比べて計算、通信、メモリの使用量を大幅に削減しつつ、同等の性能を達成できることが示された。これにより、大規模言語モデルの資源制限デバイスでの活用が促進され、その可用性と適用範囲が広がることが期待される。
统计
大規模言語モデルの微調整には膨大なメモリ(10GB以上)が必要であり、多くのデバイスの容量(4-8GB)では不足している。
大規模モデルの微調整には計算コストも高く、数百秒/ラウンドかかり、数日にわたる学習が必要となる。
各ラウンドでデバイスは最新のグローバルモデルをダウンロードし、ローカルモデルをアップロードする必要があり、通信コストが高い。
引用
"To overcome this issue, federated learning (FL) (McMahan et al. 2017), which enables collaborative model training without sharing the raw data, is a de facto approach."
"Recently, various parameter-efficient fine-tuning (PEFT) methods have been integrated into FL to overcome the aforementioned challenges (Zhao et al. 2023b,a; Che et al. 2023; Babakniya et al. 2023; Cai et al. 2023). These approaches assume that devices have white-box access to a large LM's parameters, focusing on updating only a small subset of parameters."