이 논문은 기계 번역된 대화의 품질을 평가하는 데 있어서 문맥 정보의 역할을 조사한다.
먼저, 뉴스 도메인과 대화 도메인 간 번역 오류의 특성과 빈도를 비교한다. 대화 번역에서는 오류가 21% 더 적게 발생하지만, 오류 유형이 다르다는 것을 확인했다. 이는 기존 자동 평가 지표들이 대화 번역 품질 평가에 적합하지 않을 수 있음을 시사한다.
이어서 다양한 자동 평가 지표들을 대화 번역 품질 평가에 적용하고 분석한다. 참조 기반 지표인 COMET-22가 전반적으로 가장 높은 상관관계를 보였다. 그러나 참조 없는 평가에서는 METRICX-23-QE-XL과 COMET-20-QE가 우수한 성능을 보였다. 이는 참조 번역이 없는 상황에서도 대화 번역 품질을 잘 평가할 수 있는 지표가 필요함을 보여준다.
이후 COMET-22와 COMET-20-QE에 문맥 정보를 추가하여 평가했다. 참조 기반 COMET-22는 문맥 정보가 도움이 되지 않았지만, 참조 없는 COMET-20-QE는 문맥 정보가 늘어날수록 성능이 향상되었다. 특히 영어 이외의 언어로 번역된 경우에 문맥 정보가 도움이 되었다. 이는 문맥 정보가 참조 번역이 없는 상황에서 대화 번역 품질을 평가하는 데 유용할 수 있음을 보여준다.
마지막으로 대화 문맥을 활용한 LLM 기반 평가 지표인 CONTEXT-MQM을 제안하고 평가했다. 문맥 정보를 활용한 CONTEXT-MQM이 기존 지표들보다 우수한 성능을 보였다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Swet... alle arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08314.pdfDomande più approfondite