Core Concepts
다국어 데이터 번역 시 데이터 구성 요소 간 관계를 고려하여 번역하면 번역 품질과 번역 데이터의 효과성을 높일 수 있다.
Abstract
이 연구는 기계 번역(MT) 시스템을 활용하여 다국어 데이터를 번역할 때 발생하는 문제점을 해결하는 방법을 제안한다.
기존 방식은 데이터의 각 구성 요소를 개별적으로 번역하였지만, 이 경우 구성 요소 간 관계가 간과되어 번역 품질과 번역 데이터의 효과성이 저하될 수 있다.
이 연구에서는 데이터 구성 요소를 하나의 시퀀스로 연결하여 번역하는 방식을 제안한다. 이때 구성 요소 간 관계를 명시하는 Catalyst Statement(CS)와 각 구성 요소의 위치를 표시하는 Indicator Token(IT)을 사용한다.
실험 결과, 제안한 방식은 개별 번역 방식에 비해 번역 데이터의 품질과 효과성이 높은 것으로 나타났다. 웹 페이지 랭킹 과제에서 2.690점, 질문 생성 과제에서 0.845점의 성능 향상을 보였다.
이를 통해 데이터 구성 요소 간 관계를 고려하는 것이 다국어 데이터 번역에 중요함을 확인할 수 있다.
Stats
웹 페이지 랭킹 과제에서 개별 번역 방식 대비 제안한 방식의 성능이 2.690점 향상되었다.
질문 생성 과제에서 개별 번역 방식 대비 제안한 방식의 성능이 0.845점 향상되었다.
Quotes
"데이터 구성 요소 간 관계를 고려하지 않고 개별적으로 번역하는 경우, 번역 출력물의 정확성이 저하될 수 있다."
"제안한 방식은 데이터 구성 요소를 하나의 시퀀스로 연결하여 번역함으로써 구성 요소 간 관계를 효과적으로 반영할 수 있다."