本研究では、MMT-Benchと呼ばれる新しい包括的なベンチマークを提案しています。MMT-Benchは、大規模視覚言語モデル(LVLM)の多様なマルチタスク能力を評価するために設計されています。
MMT-Benchの特徴は以下の通りです:
31,325の精緻に選別された多肢選択式の視覚問題で構成され、32のコアメタタスクと162のサブタスクをカバーしています。これは従来のベンチマークよりも大幅に広範囲なタスクをカバーしています。
自然シーン、合成画像、テキスト豊富な画像、医療画像など、13種類の多様な入力画像タイプを含んでいます。これにより、LVLMが様々な視覚入力を解釈できる能力を評価できます。
車両運転、GUIナビゲーション、身体的AIなどのマルチモーダルシナリオをカバーし、視覚認識、ローカリゼーション、推論、OCR、カウンティング、3D知覚、時間理解など、14種類の多様なマルチモーダル能力を評価します。
MMT-Benchを用いて30種類の代表的なLVLMを包括的に評価した結果、以下のような知見が得られました:
以上のように、MMT-Benchは大規模視覚言語モデルの多様なマルチタスク能力を包括的に評価し、その課題と可能性を明らかにしています。今後のマルチタスクAGIの実現に向けて、MMT-Benchが重要な役割を果たすことが期待されます。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kaining Ying... at arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.16006.pdfDeeper Inquiries