Core Concepts
다양한 토큰화 방식이 스페인어 복수 명사의 문법 일치 예측 성능에 유사한 영향을 미친다.
Abstract
이 연구는 스페인어 복수 명사의 토큰화 방식이 문법 일치 예측 성능에 미치는 영향을 조사했다.
단일 토큰, 형태소 기반 다중 토큰, 비형태소 기반 다중 토큰 등 세 가지 토큰화 방식을 비교했다.
모든 토큰화 방식에서 높은 문법 일치 정확도를 보였으며, 토큰화 방식 간 차이는 크지 않았다.
비형태소 기반 복수 명사를 인위적으로 형태소 기반으로 토큰화해도 성능이 크게 향상되지 않았다.
이는 언어 모델이 이미 복수 명사의 형태론적 패턴을 어느 정도 일반화할 수 있음을 시사한다.
추가 분석을 통해 복수 명사 표현의 분포가 토큰화 방식에 따라 다르지만, 단수-복수 구분에는 유사한 메커니즘이 작용함을 확인했다.
Stats
단일 토큰 복수 명사의 빈도가 형태소 기반 다중 토큰 복수 명사보다 유의미하게 높았다.
형태소 기반 다중 토큰 복수 명사의 빈도가 비형태소 기반 다중 토큰 복수 명사보다 유의미하게 높았다.