Core Concepts
현재 GPT 모델을 사용하여 50개 언어에서 영어로의 자동 번역을 수행하고 성능을 평가했다.
Abstract
이 연구에서는 16개의 오픈 소스 GPT 모델을 사용하여 50개 언어에서 영어로의 자동 기계 번역을 수행하고 그 성능을 평가했다. 번역 품질은 BLEU, GLEU, METEOR, chrF 등의 지표를 사용하여 측정했으며, 각 문장 번역에 소요된 시간도 측정했다.
가장 우수한 성능을 보인 GPT 모델은 ReMM-v2-L2-13B와 Llama2-chat-AYT-13B였다. 이들 모델의 번역 품질은 구글 번역기와 유사하거나 때로는 더 나은 수준이었다. 그러나 일부 언어, 특히 몽골어, 카자흐어, 버마어, 쿠르드어, 아르메니아어, 조지아어 등에 대해서는 GPT 모델의 성능이 매우 낮았다.
전반적으로 이 연구는 현재 GPT 모델의 자동 다국어 번역 능력을 평가하고 그 한계를 확인했다. 향후 연구에서는 번역 성능을 개선하기 위한 방법을 모색할 필요가 있다.
Stats
이 연구에서 사용한 GPT 모델 중 가장 우수한 성능을 보인 ReMM-v2-L2-13B 모델의 평균 BLEU 점수는 0.152였다.
ReMM-v2-L2-13B 모델의 평균 GLEU 점수는 0.256이었다.
Llama2-chat-AYT-13B 모델의 평균 chrF 점수는 0.448이었다.
ReMM-v2-L2-13B 모델의 평균 METEOR 점수는 0.438이었다.