核心概念
문맥 정보를 활용하면 참조 번역 없이도 기계 번역 시스템을 효과적으로 평가할 수 있다.
要約
이 논문은 기계 번역 평가에서 문맥 정보의 활용 방안을 제안한다. 기존의 문장 단위 평가 방식은 문맥 정보를 활용하지 못해 참조 번역에 의존하는 한계가 있다. 이에 저자들은 SLIDE(SLIding Document Evaluator)라는 새로운 평가 방식을 제안한다.
SLIDE는 문서 내 문장들을 고정 크기의 윈도우로 묶어 평가한다. 윈도우를 문서 전체에 걸쳐 슬라이딩시키며 각 윈도우의 점수를 누적하여 시스템 수준의 점수를 산출한다. 실험 결과, SLIDE는 문장 단위 평가 방식보다 우수한 성능을 보였으며, 참조 번역 기반 평가 방식과도 견줄만한 수준의 성능을 달성했다. 이는 문맥 정보가 참조 번역을 대체할 수 있음을 시사한다.
저자들은 문서 경계 정보만 있다면 SLIDE를 손쉽게 적용할 수 있다고 강조한다. 이를 통해 참조 번역 없이도 문서 단위 기계 번역 평가가 가능해질 것으로 기대된다.
統計
문서 내 문장 수가 윈도우 크기보다 작은 경우, 해당 문서는 완전한 윈도우를 구성할 수 없어 제외된다.
문서 내 문장 수가 윈도우 크기와 stride 크기의 차이로 나누어 떨어지지 않는 경우, 마지막 부분의 문장들은 부분 윈도우를 구성하게 된다.
引用
"Reference-based metrics that operate at the sentence-level typically outperform quality estimation metrics, which have access only to the source and system output. This is unsurprising, since references resolve ambiguities that may be present in the source."
"SLIDE leverages a moving window that slides over each document in the test set, feeding each chunk of sentences into an unmodified, off-the-shelf quality estimation model."
"SLIDE obtains significantly higher pairwise system accuracy than its sentence-level baseline, in some cases even eliminating the gap with reference-base metrics."