本論文では、MM1.5の開発プロセスについて詳しく説明している。
まず、SFTデータの組み合わせの影響を調べ、テキスト豊富なデータ、科学データ、参照・接地データなどが各能力に与える影響を明らかにした。次に、継続的プレトレーニングにおけるOCRデータと合成キャプションの影響を分析し、高解像度の画像処理が重要であることを示した。さらに、事前トレーニングデータの組み合わせを最適化し、知識集約型ベンチマークの性能を向上させた。
最後に、動的な高解像度画像分割手法を提案し、その詳細な検証を行った。この手法により、解像度の高い画像を効率的に処理できるようになった。
全体として、MM1.5は、テキスト豊富な画像理解、視覚的参照と接地、および多画像推論などの重要な機能を備えた高性能なマルチモーダル大規模言語モデルである。開発プロセスの詳細な分析は、今後のMLLMの研究に有益な洞察を提供している。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Haotian Zhan... في arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20566.pdfاستفسارات أعمق