이 논문은 저자원 언어의 기계 번역 성능을 향상시키기 위한 방법을 제안한다. 주요 내용은 다음과 같다:
소스 언어 인코더와 타겟 언어 디코더에 형태론 모델링을 적용하여 복잡한 형태론을 효과적으로 처리한다. 소스 언어 인코더에서는 형태소 분석기를 사용하여 단어의 어간, 접사, 품사 태그, 접사 집합 정보를 인코딩한다. 타겟 언어 디코더에서는 이러한 형태론 정보를 다중 작업 및 다중 레이블 분류 문제로 학습한다.
변환기 모델의 주의 집중 메커니즘을 증강하는 방법을 제안한다. 사전 학습된 언어 모델의 임베딩을 통합하고, 소스-타겟 언어 간 단어 순서 관계를 모델링하는 새로운 교차 위치 인코딩 기법을 도입한다.
공개 도메인 문서와 웹사이트에서 병렬 데이터를 추출하고, 다양한 데이터 증강 기법을 적용하여 저자원 환경에서의 성능을 향상시킨다.
실험 결과, 제안된 모델은 Kinyarwanda-영어 번역 작업에서 기존 대규모 다국어 모델들을 능가하는 성능을 보였다. 이는 형태론 모델링, 주의 집중 증강, 데이터 증강 기법의 효과를 입증한다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Antoine Nzey... alle arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02392.pdfDomande più approfondite