מושגי ליבה
既存のマルチモーダル大規模言語モデル (MLLM) は、単一画像タスクでは優れた性能を発揮するものの、複数画像入力になると、きめ細かい認識、複数画像推論、文脈内学習能力など、大きな欠点がある。
תקציר
MIBench:複数画像を扱うマルチモーダル大規模言語モデルの評価
Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu. (2024). MIBench: Evaluating Multimodal Large Language Models over Multiple Images. arXiv:2407.15272v2.
本論文では、複数画像を扱うマルチモーダル大規模言語モデル (MLLM) の性能を包括的に評価することを目的とする。