Concepts de base
현재 언어 모델의 대중적인 신조어 토큰화 기법은 형태소 경계를 존중하지 않아 모델의 성능에 영향을 미치며, 이를 해결하기 위한 새로운 평가 프레임워크가 필요하다.
Résumé
이 논문은 현재 널리 사용되는 신조어 토큰화 기법의 한계를 지적하고, 이를 해결하기 위한 새로운 평가 프레임워크를 제안한다.
먼저 umLabeller라는 도구를 소개하여 신조어 토큰화를 형태소 기반과 비형태소 기반으로 구분한다. 이를 통해 신조어 토큰화의 내재적 정확성을 평가할 수 있다.
다음으로 OOV 일반화 과제 1.0 벤치마크를 제안한다. 이 벤치마크는 3가지 하위 과제로 구성되며, 언어 모델의 OOV 단어에 대한 의미 합성 및 일반화 능력을 평가한다.
실험 결과, 형태소 기반 토큰화가 비형태소 기반 토큰화에 비해 OOV 단어의 의미 합성 및 일반화 능력을 더 잘 지원하는 것으로 나타났다. 이는 언어 모델의 일반화 성능 향상을 위해 형태소 기반 토큰화가 중요함을 시사한다.
Stats
형태소 기반 토큰화가 비형태소 기반 토큰화에 비해 WaD 과제에서 5.4% 더 높은 정확도를 보였다.
형태소 기반 토큰화가 비형태소 기반 토큰화에 비해 WaM 과제에서 2.7%~7.2% 더 높은 정확도를 보였다.
형태소 기반 토큰화와 비형태소 기반 토큰화 간 WaW 과제 정확도 차이는 모델에 따라 다양하게 나타났다.
Citations
"현재 언어 모델의 대중적인 신조어 토큰화 기법은 형태소 경계를 존중하지 않아 모델의 성능에 영향을 미친다."
"형태소 기반 토큰화가 비형태소 기반 토큰화에 비해 OOV 단어의 의미 합성 및 일반화 능력을 더 잘 지원한다."