核心概念
マルチモーダル大規模言語モデル (MLLM) の、複数画像にまたがるインスタンスレベルの視覚的根拠に基づく理解能力を評価するために、新たなベンチマークMC-Benchを提案する。
要約
MC-Bench: マルチコンテキスト視覚接地ベンチマークのための新しいデータセット
書誌情報: Xu, Y., Zhu, L., & Yang, Y. (2024). MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs. arXiv preprint arXiv:2410.12332v1.
研究目的: 複数画像にまたがるインスタンスレベルの視覚的根拠に基づく理解能力を、マルチモーダル大規模言語モデル (MLLM) を用いて評価するための新しいベンチマークデータセットMC-Benchを提案する。
手法: 既存のデータセットやインターネットから収集した多様な画像ペアに対して、参照、比較、推論の3つのスタイルのオープンエンドなテキストプロンプトを作成し、各プロンプトが表すインスタンスを画像内でバウンディングボックスでアノテーションした。
主な結果: 20種類以上の最先端のMLLMと、LLMを持たない関連する基盤モデルをMC-Benchを用いて評価した結果、既存のMLLMは人間と比較してパフォーマンスが大幅に低いことが明らかになった。
結論: MC-Benchは、複数画像を用いたインスタンスレベルのタスクにおけるMLLMの能力を評価するための、より現実的で挑戦的なベンチマークを提供する。今後のMLLM開発において、複数画像におけるインスタンスレベルのタスクの改善に焦点を当てる必要がある。
意義: 本研究は、MLLMの複数画像におけるインスタンスレベルの理解能力に関する研究を促進し、より汎用性の高い視覚言語モデルの開発に貢献する。
限界と今後の研究: MC-Benchは評価専用のデータセットであり、モデルの訓練には使用できない。また、アノテーションの質を向上させるためには、より多くのアノテータによる検証が必要である。
統計
MC-Benchは2,000件の手動でアノテーションされたサンプルで構成されており、それぞれに画像ペア、テキストプロンプト、対応するインスタンスレベルのラベルが含まれています。
テキストプロンプトの長さは2〜24語の範囲で、平均は7.2語です。
MC-Benchには、参照、比較、推論という3つの異なるスタイルのテキスト表現がそれぞれ346、810、844件含まれています。
MC-Benchは、属性比較、論理的推論、常識的推論など、20の実用的なスキルをカバーしています。
各プロンプトは、画像ペア内の1〜17個のインスタンスを、1〜7個のグループで示しています。
ラベル付けされたバウンディングボックスのサイズは4e-6から1の範囲です。
人間の評価者は、負のサンプルごとに平均0.19個の予測を行いました。