이 논문은 다중 모달 대형 언어 모델(MLLM)의 포괄적인 평가를 위한 새로운 벤치마크 MME를 제안한다. MME는 지각 능력과 인지 능력을 모두 평가하며, 총 14개의 세부 과제로 구성된다. 모든 지시-답변 쌍은 수동으로 설계되어 데이터 누출을 방지하고, 간단한 지시문을 사용하여 모델 간 공정한 비교가 가능하도록 하였다. 또한 "예" 또는 "아니요"로 답변하도록 하여 정량적 분석이 용이하다.
30개의 최신 MLLM 모델을 MME로 평가한 결과, 현재 모델들이 여전히 많은 개선의 여지가 있음을 보여준다. 구체적으로 네 가지 주요 문제점이 드러났다:
이러한 발견은 향후 MLLM 모델 최적화를 위한 중요한 지침이 될 것으로 기대된다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Chaoyou Fu,P... kl. arxiv.org 03-19-2024
https://arxiv.org/pdf/2306.13394.pdfDybere Forespørgsler