Core Concepts
대규모 언어 모델을 활용하여 영어와 인도 언어 간 번역의 품질을 참조 없이 평가하는 방법을 제시한다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 참조 없는 번역 평가 능력을 평가하고 향상시키는 것을 목표로 한다.
원천 언어(영어)에서 대상 언어(인도 언어 5개)로의 번역 품질을 평가하는 작업을 수행했다.
사전 훈련된 LLM의 제로샷 및 예제 기반 학습 성능을 평가했다.
선별된 LLM 모델을 미세 조정하여 참조 없는 번역 평가 성능을 향상시켰다.
미세 조정 LLM 모델의 성능을 기존 참조 없는 평가 방법(COMET, BERTScore, LABSE)과 비교했다.
미세 조정 LLM 모델이 기존 방법과 비교해 인도 언어 번역 평가에서 동등하거나 더 높은 상관관계를 보였다.
다중 과제 학습(번역 및 번역 평가)은 번역 평가 성능 향상에 도움이 되지 않았다.
Stats
영어-힌디어 번역 점수 99점을 받은 문장이 2개 있다.
영어-구자라트어 번역 점수 95점을 받은 문장이 43개 있다.
영어-마라티어 번역 점수 90점을 받은 문장이 940개 있다.
영어-타밀어 번역 점수 90점을 받은 문장이 941개 있다.
영어-텔루구어 번역 점수 90점을 받은 문장이 930개 있다.