Core Concepts
深層レベルの特徴と浅層レベルの特徴を効果的に融合することで、マルチモーダル大規模言語モデルの画像理解能力、特に細部表現能力を向上させることができる。
Cao, Y., Liu, Y., Chen, Z., Shi, G., Wang, W., Zhao, D., & Lu, T. (2024). MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding [Preprint]. arXiv. https://doi.org/10.48550/arXiv.2410.11829
本研究は、マルチモーダル大規模言語モデル (MLLM) における画像理解の精度向上、特に細部表現の改善を目的とする。従来のMLLMでは、Vision Transformer (ViT) の最終層または最後から2番目の層の特徴マップのみを利用しており、浅い層の特徴マップに含まれる豊富な細部情報が活用されていない点を問題視する。