Core Concepts
連合学習の枠組みでマルチモーダルトランスフォーマーを探索し、クロスモーダリティとインモーダリティのギャップに取り組むための新しいフレームワークを提案する。
Abstract
本論文は、連合学習(Federated Learning)の枠組みでマルチモーダルトランスフォーマーを探索している。連合学習は、生データへのアクセスを必要とせずにモデルを訓練できる分散型のアプローチである。
論文では、視覚-言語ドメインにおける転移マルチモーダル連合学習(Transfer Multi-modal Federated Learning)の設定を考える。クライアントは異なるデータセットから得られた様々なモダリティのデータを持っており、それぞれ異なるローカルタスクを持っている。
この設定では、クロスモーダリティギャップとインモーダリティギャップという2つの課題が存在する。クロスモーダリティギャップは、ユニモーダルクライアントがローカルデータしか持たないため、他のモダリティの知識にアクセスできないことから生じる。一方、インモーダリティギャップは、同じモダリティのクライアントでも異なるローカルタスクを持つため、モデルパラメータが異なることから生じる。
そこで本論文では、FedCola(Federated modality Complementary and collaboration)と呼ばれる新しいフレームワークを提案する。FedColaは、ローカル訓練とグローバル集約の両方でこれらのギャップに取り組む。
ローカル訓練では、ユニモーダルクライアントがトランスフォーマーブロックを相互補完的に利用することで、クロスモーダリティの知識を獲得する。グローバル集約では、注意機構層とその他の層を選択的に集約することで、一般化知識とタスク固有知識のバランスを取る。
extensive experimentsの結果、FedColaは様々な連合学習設定下で優れたパフォーマンスを示し、マルチモーダルトランスフォーマーの連合学習に新しい洞察を提供することが示された。
Stats
視覚-言語ドメインにおける連合学習の設定では、クライアントの総数は N = 12 + 12 + 8 = 32 である。
各ラウンドでは、モダリティ毎に r = 0.25 のクライアントが選択されて局所訓練を行う。
総通信ラウンド数は T = 30 ラウンドである。
Quotes
"Multi-modal transformers mark significant progress in differ-ent domains, but siloed high-quality data hinders their further improve-ment."
"To remedy this, federated learning (FL) has emerged as a promis-ing privacy-preserving paradigm for training models without direct ac-cess to the raw data held by different clients."