핵심 개념
인공 언어를 활용한 실험을 통해 통사적 유사성과 의미적 유사성이 비지도 기계 번역의 성공에 미치는 영향을 분석하였다. 통사적 유사성만으로는 충분하지 않으며, 복잡한 의미적 의존성이 비지도 기계 번역의 핵심적인 요인임을 밝혔다.
초록
이 연구는 인공 언어를 활용하여 기계 번역에서 통사적 및 의미적 유사성의 영향을 체계적으로 분석하였다.
첫 번째 실험에서는 동일한 언어 간 번역을 통해 실험 설정이 적절함을 확인하였다.
두 번째 실험에서는 문법이 다른 언어 간 번역 성능을 측정하였는데, 문법 유사성이 높을수록 번역 성능이 향상되었다.
세 번째 실험에서는 어휘가 다른 언어 간 번역을 시도하였는데, 이 경우 번역 성능이 크게 저하되었다.
이후 실험에서는 어휘 간 공통점(앵커 포인트), 단어 빈도 정보, 의미장 정보 등을 추가하여 번역 성능 향상을 시도하였다. 그 결과, 단순한 어휘 및 통사 정보만으로는 충분하지 않으며, 복잡한 의미적 의존성이 비지도 기계 번역의 핵심적인 요인임을 밝혔다.
통계
문법 유사성이 높을수록 번역 성능이 향상된다. (실험 2)
어휘가 다른 언어 간 번역 성능은 매우 낮다. (실험 3)
앵커 포인트나 단어 빈도 정보만으로는 번역 성능 향상에 한계가 있다. (실험 4)
소량의 지도 데이터만으로도 번역 성능이 크게 향상된다. (실험 5)
의미장 정보를 활용하면 번역 성능이 일부 향상된다. (실험 6)
인용구
"Back-translation is necessary, but not sufficient in general"
"The success of unsupervised machine translation was far from being analytically guaranteed."
"Rich semantic dependencies, parallel across languages, are at the root of the success of unsupervised methods based on back-translation."