核心概念
문자와 하위단어 표현을 상호 정보 교환하여 학습하는 새로운 모델을 제안한다. 이를 통해 문자 및 하위단어 수준의 과제에서 우수한 성능을 달성한다.
要約
이 논문은 문자와 하위단어 표현을 상호 정보 교환하여 학습하는 새로운 모델을 제안한다. 기존의 언어 모델들은 주로 하위단어 토큰화를 사용하지만, 문자, 하위단어, 단어 등 다양한 수준의 텍스트 정보를 활용할 수 있다. 저자들은 문자와 하위단어 표현을 별도의 모달리티로 간주하고, 상호 주의 집중(cross-attention) 메커니즘을 통해 상호 정보를 교환하는 "entanglement" 모델을 제안한다.
실험 결과, 제안 모델은 다양한 과제(개체명 인식, 품사 태깅, 문장 분류)와 도메인(잡음이 있는 텍스트, 정형화된 텍스트), 언어(영어, 10개 아프리카어)에서 기존 모델들을 능가하는 성능을 보였다. 특히 잡음이 있는 텍스트와 저자원 언어에서 큰 성능 향상을 보였다. 또한 문자 수준 과제(단어 내 코드 전환)에서도 우수한 성능을 달성했다.
추가적으로 저자들은 위치 임베딩과 마스크 언어 모델 사전 학습 등의 확장 실험을 수행했지만, 기본 모델만으로도 충분한 성능을 보였다. 이는 제안 모델이 문자와 하위단어 간 위치 정렬을 자체적으로 학습할 수 있고, 기반 모델의 사전 학습 결과를 효과적으로 활용할 수 있음을 시사한다.
統計
문자 수준 과제에서 제안 모델은 기존 모델 대비 약 2-3% 높은 정확도를 달성했다.
영어 개체명 인식 과제에서 제안 모델은 RoBERTa 대비 약 1.6% 높은 F1 점수를 보였다.
다국어 개체명 인식 과제에서 제안 모델은 XLM-R 대비 약 2% 높은 F1 점수를 달성했다.
引用
"문자와 하위단어 표현은 서로 다르지만 보완적이다."
"제안 모델은 문자 수준의 미세한 표현과 하위단어 수준의 풍부한 메모리를 결합한다."
"제안 모델은 잡음이 있는 텍스트와 저자원 언어에서 특히 우수한 성능을 보였다."