核心概念
大規模言語モデルに効率的なマルチモーダル調整戦略を導入することで、MiTは最先端のパフォーマンスを達成し、計算負荷を軽減します。
摘要
最近の大規模モデルの進歩は、さまざまなタスクで顕著な汎化能力を示しています。しかし、これらのモデルにマルチモーダル処理を統合することは高い計算負荷という重要な課題があります。この論文では、大規模言語モデル内で新しいパラメータ効率の良いマルチモーダル調整戦略「Multimodal Infusion Tuning(MiT)」を紹介しています。MiTは、大きな言語モデル内で分離された自己注意メカニズムを活用し、画像や音響など多様な形式から情報を効果的に統合します。また、MiTでは、頭部レベルで新しい適応的リスケーリング戦略も設計されており、組み込まれたマルチモーダル特徴量の表現を最適化します。実験では、画像関連タスク(参照セグメンテーション)や非画像タスク(感情分析)など幅広いマルチモーダルタスクでMiTが最先端のパフォーマンスを達成しました。
統計資料
MiTは計算負荷を10%削減しつつ、マルチモーダル理解において最先端のパフォーマンスを達成しています。
MiTは前回の方法よりも計算オーバーヘッドが10%少なくても状況に応じて堅牢な推論能力を示します。
引述
"We introduce a new parameter-efficient multimodal tuning strategy for large models in this paper, referred to as Multimodal Infusion Tuning (MiT)."
"Our results showcase that MiT achieves state-of-the-art performance in multimodal understanding while significantly reducing computational overhead."