核心概念
대규모 언어 모델을 활용하여 영어와 인도 언어 간 번역의 품질을 참조 없이 평가하는 방법을 제시한다.
要約
이 연구는 대규모 언어 모델(LLM)의 참조 없는 번역 평가 능력을 평가하고 향상시키는 것을 목표로 한다.
- 원천 언어(영어)에서 대상 언어(인도 언어 5개)로의 번역 품질을 평가하는 작업을 수행했다.
- 사전 훈련된 LLM의 제로샷 및 예제 기반 학습 성능을 평가했다.
- 선별된 LLM 모델을 미세 조정하여 참조 없는 번역 평가 성능을 향상시켰다.
- 미세 조정 LLM 모델의 성능을 기존 참조 없는 평가 방법(COMET, BERTScore, LABSE)과 비교했다.
- 미세 조정 LLM 모델이 기존 방법과 비교해 인도 언어 번역 평가에서 동등하거나 더 높은 상관관계를 보였다.
- 다중 과제 학습(번역 및 번역 평가)은 번역 평가 성능 향상에 도움이 되지 않았다.
統計
영어-힌디어 번역 점수 99점을 받은 문장이 2개 있다.
영어-구자라트어 번역 점수 95점을 받은 문장이 43개 있다.
영어-마라티어 번역 점수 90점을 받은 문장이 940개 있다.
영어-타밀어 번역 점수 90점을 받은 문장이 941개 있다.
영어-텔루구어 번역 점수 90점을 받은 문장이 930개 있다.