Core Concepts
문장 전체 맥락을 고려하여 형태소 분절을 수행하는 것이 단어 단위 분절보다 성능이 우수하다.
Abstract
이 연구는 문장 수준 형태소 분절 문제를 다루며, 단어 단위가 아닌 문장 전체를 입력으로 사용하는 시퀀스-투-시퀀스 변환 모델을 제안한다. 주요 내용은 다음과 같다:
기존 연구들이 단어 단위 형태소 분절에 초점을 맞춘 것과 달리, 이 연구는 문장 전체의 맥락을 고려하여 형태소 분절을 수행한다.
체코어, 영어, 몽골어 데이터셋을 사용하여 단일 언어 및 다국어 모델을 학습하고 비교 실험을 수행했다.
다국어 모델이 단일 언어 모델보다 전반적으로 우수한 성능을 보였으며, 특히 저자원 언어인 체코어와 몽골어에서 큰 성능 향상을 보였다.
단어 수준 데이터 증강과 데이터 업샘플링 기법을 적용하여 성능을 높였지만, 여전히 최신 연구 결과를 따라가지 못했다.
저자원 언어의 성능 향상을 위해 반지도 학습 등 추가적인 기법 적용이 필요할 것으로 보인다.
Stats
문장 수준 데이터셋의 크기:
체코어: 훈련 1,000개, 개발 500개, 테스트 500개
영어: 훈련 11,007개, 개발 1,783개, 테스트 1,845개
몽골어: 훈련 1,000개, 개발 500개, 테스트 500개
단어 수준 데이터셋의 크기:
체코어: 38,682개
영어: 577,374개
몽골어: 18,966개