最近の大規模モデルの進歩は、さまざまなタスクで顕著な汎化能力を示しています。しかし、これらのモデルにマルチモーダル処理を統合することは高い計算負荷という重要な課題があります。この論文では、大規模言語モデル内で新しいパラメータ効率の良いマルチモーダル調整戦略「Multimodal Infusion Tuning(MiT)」を紹介しています。MiTは、大きな言語モデル内で分離された自己注意メカニズムを活用し、画像や音響など多様な形式から情報を効果的に統合します。また、MiTでは、頭部レベルで新しい適応的リスケーリング戦略も設計されており、組み込まれたマルチモーダル特徴量の表現を最適化します。実験では、画像関連タスク(参照セグメンテーション)や非画像タスク(感情分析)など幅広いマルチモーダルタスクでMiTが最先端のパフォーマンスを達成しました。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hao Sun,Yu S... at arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.05060.pdfDeeper Inquiries