核心概念
다국어 모델을 Occitan 방언 데이터로 미세 조정하여 방언 간 철자 변이를 효과적으로 나타낼 수 있음을 보여줌.
摘要
이 연구는 Occitan이라는 저자원 언어의 방언 간 철자 변이를 모델링하는 방법을 탐구합니다.
먼저 4개 Occitan 방언의 병렬 어휘집을 구축하여 방언 간 변이를 평가할 수 있는 데이터셋을 마련했습니다. 이를 바탕으로 다국어 BERT 모델을 Occitan 데이터로 미세 조정하고, 다음과 같은 실험을 진행했습니다:
유추 계산을 통해 모델의 방언 표현력을 내부적으로 평가했습니다. 의미적 유추보다는 통사적 유추에서 더 나은 성능을 보였습니다.
한 방언의 어휘를 다른 방언의 어휘로 유도하는 실험을 진행했습니다. 철자 유사성이 높은 단어쌍일수록 더 유사하게 표현되는 것으로 나타났습니다.
품사 태깅과 의존구문 분석 실험을 통해 미세 조정된 모델의 다운스트림 성능을 평가했습니다. 단일 방언 데이터로 학습한 경우에도 방언 간 변이에 강건한 성능을 보였습니다.
결과적으로 이 연구는 저자원 언어의 철자 변이를 효과적으로 모델링하기 위해서는 정규화 전처리 없이도 다국어 모델을 활용할 수 있음을 시사합니다.
統計資料
Occitan의 4개 방언(Lengadocian, Lemosin, Provençau, Gascon)에서 2,200개 이상의 병렬 어휘 데이터를 구축했습니다.
전체 미세 조정 데이터는 386,552줄(10,941,124 토큰)이며, 이 중 Lengadocian 방언이 가장 많은 비중을 차지합니다.
引述
"Effectively normalizing textual data poses a considerable challenge, especially for low-resource languages lacking standardized writing systems."
"Our findings suggest that large multilingual models minimize the need for spelling normalization during pre-processing."