이 연구에서는 KazParC라는 카자흐어, 영어, 러시아어, 터키어 간 병렬 말뭉치를 소개한다. 이는 최초로 공개된 대규모 병렬 말뭉치로, 다양한 도메인의 371,902개 문장쌍으로 구성되어 있다. 또한 이 말뭉치로 학습된 신경망 기계 번역 모델 Tilmash를 소개한다. Tilmash는 업계 선두 기계 번역 서비스인 구글 번역과 야랜덱스 번역을 능가하는 성능을 보였다.
KazParC 말뭉치 구축을 위해 2021년 7월부터 2023년 9월까지 평균 10명의 인간 번역가가 41,600시간 동안 다양한 출처의 텍스트를 수집하고 번역했다. 수집된 데이터는 전처리 과정을 거쳐 교육, 과학, 소설, 일반, 법률 문서, 대중매체 등 5개 도메인으로 구분되었다. 말뭉치는 80:20 비율로 훈련, 검증, 테스트 데이터로 나뉘었다. 또한 웹 크롤링을 통해 약 180만 문장의 합성 병렬 말뭉치 SynC를 구축했다.
Tilmash 모델은 페이스북의 NLLB 모델을 기반으로 KazParC와 SynC 데이터로 fine-tuning되었다. 실험 결과, Tilmash는 BLEU와 chrF 지표에서 구글 번역과 야랜덱스 번역을 능가하는 성능을 보였다. 특히 법률 문서와 일반 도메인에서 두드러진 우수성을 나타냈다. 다만 관용구와 격식체 대명사 처리에서 일부 한계를 보였다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы