Core Concepts
자동 평가 지표와 인간 평가 간에는 중요한 차이가 있으며, 인간 평가가 기계번역 성능을 더 정확하게 반영한다. 특히 ChatGPT의 경우 적절한 프롬프트 제공 시 신경망 기계번역 시스템을 능가할 수 있다.
Abstract
이 연구는 ChatGPT와 3개의 신경망 기계번역 시스템의 번역 품질을 자동 평가 지표와 인간 평가를 통해 비교 분석하였다.
자동 평가 결과, ChatGPT는 n-gram 일치도 측면에서는 신경망 기계번역 시스템에 뒤처지지만, 의미적 유사도 측면에서는 오히려 우수한 성능을 보였다. 이는 ChatGPT가 문맥 이해와 언어 생성 능력이 뛰어나기 때문이다.
인간 평가 결과, ChatGPT는 예시나 문맥 정보가 제공될 경우 신경망 기계번역 시스템을 능가하는 번역 품질을 보였다. 특히 응집성, 규범 준수, 문화적 민감성 등의 측면에서 우수한 성과를 보였다. 반면 신경망 기계번역 시스템은 정확성 측면에서 더 많은 오류를 보였다.
자동 평가 지표와 인간 평가 간 상관관계는 전반적으로 약하고 통계적으로 유의미하지 않았다. 이는 자동 평가 지표가 번역 품질의 다양한 측면, 특히 문화적 적절성, 명확성, 실용성 등을 충분히 반영하지 못함을 시사한다. 따라서 인간 평가가 기계번역 성능을 더 정확하게 평가할 수 있다.
Stats
ChatGPT의 0-shot 번역은 BLEU 23.82, chrF 55.83, BERTScore 96.03, COMET 84.19로 나타났다.
ChatGPT의 1-shot 번역은 BLEU 25.08, chrF 55.83, BERTScore 96.14, COMET 84.64로 나타났다.
신경망 기계번역 시스템 중 MS Translate가 BLEU 29.16, chrF 59.17, BERTScore 96.15, COMET 84.41로 가장 높은 점수를 받았다.
Quotes
"자동 평가 지표와 인간 평가 간에는 중요한 차이가 있으며, 인간 평가가 기계번역 성능을 더 정확하게 반영한다."
"ChatGPT는 적절한 프롬프트 제공 시 신경망 기계번역 시스템을 능가할 수 있다."