Konsep Inti
マルチモーダルLLMの評価には、従来の固定回答ベースの手法では不十分であり、サンプルごとの基準を用いた柔軟な評価アプローチが必要である。
Abstrak
本論文は、マルチモーダルLLM (MLLM) の評価に関する新しいパラダイムを提案している。従来の評価手法は固定回答ベースであり、オープンエンドのタスクや創造的・関連性の高いタスクを適切に評価できないという課題がある。
提案手法では、強力なMLLMであるGPT-4Vをジャッジとして使用し、サンプルごとの基準に基づいて評価を行う。これにより、単一の「正解」に縛られることなく、様々な妥当な回答を評価できるようになる。
論文では、MLLM-Benchと呼ばれる包括的な評価ベンチマークを開発した。これは、改訂版Bloom's Taxonomyに基づいて6つの能力レベルを定義し、各レベルに10個のサブシナリオを設定している。また、倫理的な考慮事項にも注目している。
MLLM-Benchを用いて21のMLLMモデルを評価した結果、モデル間で大きな性能差が見られた。提案手法は人間評価と88.02%の一致率を示し、MLLMの評価に有効であることが確認された。
本研究は、MLLMの評価手法の新しいパラダイムを提示し、ユーザー中心のMLLM開発を促進することが期待される。
Statistik
女性の推定身長は165cm~175cmの範囲である。
Yao Mingの身長は229cm、Shaquille O'Nealの身長は216cmである。
Kutipan
"The realms of creativity, association, and ethical judgment within multimodal contexts, for instance, resist reduction to simple right or wrong answers."
"To bridge this gap, we propose to use potent MLLM as the judge with per-sample criteria to evaluate MLLMs."