이 연구는 다양한 자원 부족 아프리카 언어에 대한 COMET 평가 지표를 개선하는 것을 목표로 합니다. 비전문가 평가자를 위한 간소화된 MQM 평가 지침을 개발하고, 13개의 언어를 포괄하는 AFRIMTE 기계 번역 평가 데이터셋을 구축했습니다. 또한 아프리카 중심의 다국어 사전 훈련 모델인 AfroXLM-R을 활용하여 기계 번역 평가(AfriCOMET) 및 참조 없는 품질 추정(AfriCOMET-QE) 시스템을 구축했습니다.
문맥 정보를 활용하면 참조 번역 없이도 기계 번역 시스템을 효과적으로 평가할 수 있다.
안정적이고 신뢰할 수 있는 인간 평가를 위해서는 항목 그룹화, 작업량 분배, 점수 정규화, 평가 항목 수 등 다양한 요소를 고려해야 한다.
대화 번역의 품질을 평가하기 위해서는 문맥 정보가 중요하다. 기존의 문장 단위 자동 평가 지표들은 대화 번역 품질 평가에 적합하지 않으며, 문맥 정보를 활용하면 성능을 향상시킬 수 있다.