本論文は、視覚言語モデル(VLM)の学習において、Federated Learning(FL)とパラメータ効率的なアダプタ(LoRA)を組み合わせた手法を提案している。
主な内容は以下の通り:
VLMの中でも特に優れた性能を示すCLIPモデルに着目し、その文章エンコーダのパラメータ調整にLoRAを適用する。これにより、モデルの適応性と効率性を高めつつ、データプライバシーを保護することができる。
クライアントごとにデータを保持したままモデルを学習するFLの枠組みの中で、LoRAアダプタのみを通信することで、通信コストを大幅に削減できる。
様々なデータセットを用いた実験の結果、提案手法であるFLORAは、従来のFLベースラインと比較して最大30%の精度向上を達成し、通信コストも最大4766倍削減できることを示した。
さらに、少量データ学習の実験でも提案手法の有効性を確認した。
以上より、FLORAは視覚言語モデルの効率的な学習を実現し、プライバシーを保護しつつ、優れた性能を発揮することが示された。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Duy Phuong N... às arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15182.pdfPerguntas Mais Profundas