Keskeiset käsitteet
대화 번역의 품질을 평가하기 위해서는 문맥 정보가 중요하다. 기존의 문장 단위 자동 평가 지표들은 대화 번역 품질 평가에 적합하지 않으며, 문맥 정보를 활용하면 성능을 향상시킬 수 있다.
Tiivistelmä
이 논문은 기계 번역된 대화의 품질을 평가하는 데 있어서 문맥 정보의 역할을 조사한다.
먼저, 뉴스 도메인과 대화 도메인 간 번역 오류의 특성과 빈도를 비교한다. 대화 번역에서는 오류가 21% 더 적게 발생하지만, 오류 유형이 다르다는 것을 확인했다. 이는 기존 자동 평가 지표들이 대화 번역 품질 평가에 적합하지 않을 수 있음을 시사한다.
이어서 다양한 자동 평가 지표들을 대화 번역 품질 평가에 적용하고 분석한다. 참조 기반 지표인 COMET-22가 전반적으로 가장 높은 상관관계를 보였다. 그러나 참조 없는 평가에서는 METRICX-23-QE-XL과 COMET-20-QE가 우수한 성능을 보였다. 이는 참조 번역이 없는 상황에서도 대화 번역 품질을 잘 평가할 수 있는 지표가 필요함을 보여준다.
이후 COMET-22와 COMET-20-QE에 문맥 정보를 추가하여 평가했다. 참조 기반 COMET-22는 문맥 정보가 도움이 되지 않았지만, 참조 없는 COMET-20-QE는 문맥 정보가 늘어날수록 성능이 향상되었다. 특히 영어 이외의 언어로 번역된 경우에 문맥 정보가 도움이 되었다. 이는 문맥 정보가 참조 번역이 없는 상황에서 대화 번역 품질을 평가하는 데 유용할 수 있음을 보여준다.
마지막으로 대화 문맥을 활용한 LLM 기반 평가 지표인 CONTEXT-MQM을 제안하고 평가했다. 문맥 정보를 활용한 CONTEXT-MQM이 기존 지표들보다 우수한 성능을 보였다.
Tilastot
대화 도메인의 번역 오류는 뉴스 도메인보다 21% 더 적게 발생한다.
대화 도메인에서는 유창성 관련 오류(맞춤법, 일관성 등)가 더 많이 발생하고, 뉴스 도메인에서는 정확성 관련 오류(잘못 번역 등)가 더 많이 발생한다.
Lainaukset
"Unlike news articles which involve carefully authored and well-formatted text, which current translation systems are well equipped for, chat conversations are often synchronous and short, and involve formal language, colloquial expressions, and slang that may not have direct equivalents in the target language."
"Moreover, conversational texts rely heavily on context, meaning that the interpretation of a text is largely influenced by the surrounding contextual information. Hence, MT systems for such domains are often trained with contextual information and this has been shown to improve translation quality, lexical inconsistency, and coherence of the generated outputs."