이 연구는 다양한 대규모 언어 모델(GPT-3.5-Turbo, GPT-4, PaLM2, Gemini-Pro, Mistral, Llama2, Gemma)의 다국어 성능을 동일한 다국어 데이터셋을 통해 비교 평가하였다.