VisScience 벤치마크는 수학, 물리학, 화학 등 다양한 과학 분야에서 다중 모달 추론 능력을 종합적으로 평가하기 위해 개발되었다.
웨스트 아프리카 지역의 과학 교육을 지원하기 위해 개발된 AI 기반 질문 답변 시스템 Kwame for Science를 실제 배포하고 평가한 결과를 보고한다.
LLM을 활용하여 중학교 지구과학 교육과정의 형성 평가 응답을 자동으로 채점하고 의미 있는 설명을 제공하는 방법을 제시한다.