Kernkonzepte
안정적이고 신뢰할 수 있는 인간 평가를 위해서는 항목 그룹화, 작업량 분배, 점수 정규화, 평가 항목 수 등 다양한 요소를 고려해야 한다.
Zusammenfassung
이 연구는 기계 번역 평가에서 안정적이고 신뢰할 수 있는 인간 평가를 설계하는 방법을 제안한다.
항목 그룹화:
- 유사 시스템 출력을 동일한 평가자가 평가하는 pseudo-side-by-side 방식이 가장 안정적이다.
작업량 분배:
- 평가자 간 작업량을 균등하게 분배하는 것이 좋지만, 평가자 간 행동 차이와 입력 문서 차이로 인한 노이즈가 있는 경우 이 권장사항이 약해질 수 있다.
점수 정규화:
- Z-score 정규화가 다른 방식에 비해 안정성이 높지만, 다른 권장사항과 상충되는 경우에 효과가 두드러진다.
평가 항목 수:
- 예산 제약 하에서는 항목 수를 늘리는 것이 안정성을 높이는 데 더 효과적이다.
평가자 수:
- 각 항목을 단일 평가자가 평가하는 것이 좋다. 다른 평가 설정에서는 노이즈 프로파일이 다를 수 있어 이 권장사항이 달라질 수 있다.
Statistiken
각 시스템의 평균 MQM 점수는 영어-독일어 데이터셋에서 0.81~2.96, 영어-중국어 데이터셋에서 1.45~2.65 사이에 분포한다.
평가자 간 개별 문서 수준 순위 일치도는 낮지만, 전체 문서 수준 순위 일치도는 높다.
Zitate
"안정성은 평가 방법론의 중요한 특성이다. 안정성이 없다면 시스템 순위 변화를 신뢰할 수 없다."
"전문 MQM 평가자들은 높은 정확도를 가지지만 오류 검출 recall은 다양할 수 있다."