핵심 개념
EXAMS-V는 비전 언어 모델의 성능을 평가하기 위한 새로운 도전적인 다학문 다국어 다중 모달 시험 벤치마크이다. 자연과학, 사회과학 및 기타 다양한 분야의 20,932개의 선다형 문제로 구성되어 있으며, 11개 언어와 다양한 시각적 요소(이미지, 표, 그래프, 수식 등)를 포함하고 있다.
초록
EXAMS-V는 전 세계 다양한 국가의 학교 시험 문제를 수집하여 구축한 새로운 다학문 다국어 다중 모달 시험 벤치마크이다. 총 20,932개의 선다형 문제가 포함되어 있으며, 자연과학, 사회과학, 기타 분야(종교, 예술, 경영 등) 등 20개 학문 분야를 다룬다. 11개 언어로 구성되어 있어 다양한 언어권의 지식과 추론 능력을 요구한다.
문제에는 텍스트 외에도 이미지, 표, 그래프, 수식 등 다양한 시각적 요소가 포함되어 있어, 모델이 통합적인 시각 및 언어 처리 능력을 필요로 한다.
EXAMS-V는 기존 벤치마크에 비해 훨씬 더 복잡하고 도전적인 과제를 제시하며, 최신 비전 언어 모델들도 이를 해결하는 데 어려움을 겪는 것으로 나타났다.
통계
중국 고등학교 입학시험(Gaokao)과 인도 공학대학 입학시험(JEE Advanced)에서 수집한 영어와 중국어 문제가 포함되어 있다.
11개 언어, 7개 언어군으로 구성되어 있다.
자연과학(53.02%), 사회과학(27.15%), 기타(19.82%) 등 3개 대분류로 구성된다.
4-12학년 수준의 문제가 포함되어 있다.
인용구
"EXAMS-V는 비전 언어 모델의 성능을 평가하기 위한 새로운 도전적인 다학문 다국어 다중 모달 시험 벤치마크이다."
"EXAMS-V는 전 세계 다양한 국가의 학교 시험 문제를 수집하여 구축한 새로운 벤치마크로, 11개 언어와 다양한 시각적 요소를 포함하고 있다."
"EXAMS-V는 기존 벤치마크에 비해 훨씬 더 복잡하고 도전적인 과제를 제시하며, 최신 비전 언어 모델들도 이를 해결하는 데 어려움을 겪는 것으로 나타났다."