대규모 언어 모델의 과학적 문제 해결 능력을 평가하기 위해 대학 컴퓨터 과학 시험 문제를 활용한 벤치마크 SciEx를 제안하였다. SciEx는 다국어, 다모달 문제를 포함하며, 전문가 채점과 자동 채점을 제공한다. 실험 결과, 현재 대규모 언어 모델은 대학 시험 문제를 해결하는 데 여전히 어려움을 겪고 있지만, 채점 능력은 전문가 수준에 근접한 것으로 나타났다.