Основні поняття
중국어 문장 레이블링 작업은 정확한 단어 경계 구분에 크게 의존하며, 현재 사전 학습된 언어 모델은 이러한 경계 정보를 모델링하는 데 한계가 있다. 본 연구는 고품질 감독 경계 정보를 활용하여 기존 경계 인식 언어 모델을 개선하였으며, 이를 통해 중국어 자연어 이해 작업에서 우수한 성능을 달성하였다.
Анотація
본 연구는 중국어 문장 레이블링 작업을 위한 경계 인식 언어 모델인 Semi-BABERT를 제안한다.
- 기존 BABERT 모델은 비지도 통계적 경계 정보를 활용하였지만, 데이터 희소성 문제로 인해 정보의 품질이 낮은 한계가 있었다.
- 본 연구는 고품질 감독 경계 정보를 활용하여 BABERT를 개선하였다. 구체적으로:
- 대규모 어휘 사전을 활용하여 감독 경계 정보를 추출하고, 이를 모델 사전 학습에 활용하는 span 기반 경계 인식 학습 목표를 설계하였다.
- 어휘 사전의 불완전성을 보완하기 위해 PU 학습 기법을 적용하여 자동으로 경계 정보를 보완하였다.
- 실험 결과, Semi-BABERT는 다양한 중국어 문장 레이블링 작업에서 기존 모델 대비 우수한 성능을 보였다. 또한 중국어 자연어 이해 작업 전반에서도 높은 성능을 달성하였다.
- 추가로, 모델의 경계 인식 능력을 정량화할 수 있는 새로운 평가 지표인 "경계 정보 지표(BIM)"를 제안하였다.
Статистика
본 연구에서 사용한 어휘 사전은 3천만 개의 단어로 구성되어 있다.
사전 학습에 사용된 말뭉치는 약 30억 개의 토큰과 6,200만 개의 문장으로 구성되어 있다.
Цитати
"중국어 문장 레이블링 작업은 정확한 단어 경계 구분에 크게 의존한다."
"기존 사전 학습된 언어 모델은 경계 정보를 모델링하는 데 한계가 있다."
"본 연구는 고품질 감독 경계 정보를 활용하여 기존 경계 인식 언어 모델을 개선하였다."