Core Concepts
Multimodal Small Language Models (MSLMs) like Mipha-3B can outperform large models without additional training data.
Abstract
本論文では、Multimodal Small Language Models(MSLMs)に焦点を当て、Mipha-3Bのようなモデルが追加のトレーニングデータなしで大規模モデルを上回ることが示されています。Miphaは、言語バックボーンとしてSupervised finetuned Phi-2-2.7Bを使用し、SigLIPバックボーンと384pxの解像度を採用しています。さらに、LoRAを使用したパラメータ効率的なファインチューニング方法が有効であることも示されています。これらの洞察から得られた改善点を統合し、Miphaという新しいスイートのモデルが開発されました。
Stats
Mipha-3BはVQAv2で1.3%、GQAで1.4%向上。
Mipha-3BはMMBenchでLLaVA-1.5-13Bを0.8%超える。
Quotes
"Reducing the computational demands of the language model could lead to a significant decrease in overall inference costs."
"Fine-tuning the language model is even more critical for achieving a successful MSLM implementation."