CJEval은 중국 중학교 시험 문제를 기반으로 개발된 새로운 벤치마크로, 문제 유형, 난이도 수준, 지식 개념, 답변 설명 등 다양한 메타데이터를 포함하고 있다. 이를 통해 교육 분야에서 대규모 언어 모델의 잠재적 활용 가능성과 한계를 종합적으로 분석할 수 있다.