核心概念
本稿では、多様なモダリティ不均一データを用いた、マルチモーダル大規模言語モデル(MLLM)の連合学習によるファインチューニングのベンチマークであるFedMLLMを提案する。
要約
FedMLLM:多様なモダリティ不均一データに対する連合学習を用いたMLLMのファインチューニングベンチマーク
本稿では、分散型マルチモーダルデータに対するMLLMのファインチューニングの包括的なベンチマークであるFedMLLMが提案されている。
近年、マルチモーダル大規模言語モデル(MLLM)が注目を集めているが、その学習には大規模なデータセットと計算コストが必要となる。
この問題に対し、連合学習(FL)を用いることで、プライバシーを保護しながら複数のクライアントからのデータで学習することが可能となる。
しかし、現実世界におけるマルチモーダルデータは、モダリティの不均一性が課題となる。
本研究では、多様なモダリティ不均一シナリオにおけるMLLMの連合ファインチューニングを評価するためのベンチマークを提案する。
FedMLLMは、クラウド(サーバー側)と端末(クライアント側)の2つの部分から構成される。
どちらも同じMLLM(MiniCPM-V)を使用し、均質なモデルアーキテクチャを共有する。
クライアントはローカルデータセットを用いてLoRAの重みをファインチューニングし、更新された重みをサーバーにアップロードする。
サーバーは、選択されたクライアントからアップロードされたLoRAの重みを統合し、グローバルモデルを更新する。