이 논문은 벵골어 텍스트를 국제 음성 알파벳(IPA)으로 정확하게 전사하는 문제를 다룹니다. 벵골어는 복잡한 음운론과 지역 방언으로 인해 이 작업이 어려운데, 저자들은 "지역 가이드 토큰(District Guided Tokens, DGT)" 기법을 제안합니다.
DGT 기법은 입력 텍스트 앞에 지역 방언 정보를 나타내는 토큰을 추가하여, 모델이 각 지역의 고유한 발음 패턴을 학습할 수 있도록 합니다. 이를 통해 다양한 변환기 기반 모델의 성능을 향상시킬 수 있었습니다. 특히 단어 기반 모델보다 바이트 기반 ByT5 모델이 우수한 성능을 보였는데, 이는 ByT5가 Out-of-Vocabulary 단어 문제를 잘 해결할 수 있기 때문입니다.
이 연구는 언어의 다양한 언어적 변이(형태론, 음운론, 통사론)를 반영하기 위해 지역 방언 정보를 자연어 처리 시스템에 통합하는 중요성을 강조합니다. 이를 통해 다양한 방언을 사용하는 사용자와 AI 시스템 간의 원활한 상호작용을 지원할 수 있습니다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы