深層レベルの特徴と浅層レベルの特徴を効果的に融合することで、マルチモーダル大規模言語モデルの画像理解能力、特に細部表現能力を向上させることができる。
本論文では、グラフベースの特徴融合手法「LEGO融合」を提案する。この手法は、異なるモダリティ、表現、ドメインの特徴を統合するために、関係グラフを構築し、グラフ累乗を用いて複雑な相互作用をモデル化する。さらに、学習可能なグラフ融合演算子を導入し、特徴間の関係を動的に重み付けすることで、より効果的な融合を実現する。