Основні поняття
본 논문에서는 다양한 장르의 중국 온라인 소설을 기반으로 개체명 인식 연구를 위한 대규모 말뭉치를 구축하고, 장르별 특징 분석 및 교차 장르 실험을 통해 개체명 인식 성능에 미치는 영향을 분석했습니다.
Анотація
개체명 인식 말뭉치 구축 및 분석
본 논문에서는 다양한 장르의 중국 온라인 소설 텍스트를 기반으로 개체명 인식 연구를 위한 대규모 말뭉치를 구축하고 분석한 연구를 소개합니다. 저자들은 13개 장르의 260개 소설에서 105,851개 문장과 263,135개 개체명을 포함하는 말뭉치를 구축하고, 이를 활용하여 장르별 개체명 특징을 분석했습니다.
말뭉치 구축 과정
- 온라인 소설 플랫폼 'Qidian'에서 13개 장르, 260개 소설 수집
- 각 소설의 첫 10개 챕터를 대상으로 개체명 수동 태깅
- 개체명 유형: 인물(PER), 장소(LOC), 조직(ORG)
- ACE (Automatic Content Extraction) 개체명 태깅 지침 준수
- 높은 신뢰도 확보를 위해 여러 명의 태깅 작업자 간 교차 검증 실시
말뭉치 분석 결과
- 소설에서 가장 많이 등장하는 개체명 유형은 인물이며, 장소, 조직 순으로 나타남
- 인물 및 장소 개체명은 평균적으로 짧은 경향을 보이는 반면, 조직 개체명은 상대적으로 긴 경향을 보임
- 장르별로 고빈도 개체명 유형에 차이가 존재
- 스포츠 장르: 실제 지명(국가, 도시 등) 및 실존하는 스포츠 조직(대학, 팀, 리그 등)
- 역사 장르: 고대 국가/도시 및 고대 정부 기관
- 판타지/SF 장르: 가상의 장소(성, 마을, 실험실 등) 및 가상의 조직
- 도시 장르: 일상생활 공간 및 기업, 병원, 대학 등
장르별 개체명 인식 성능 비교
저자들은 구축한 말뭉치를 활용하여 다양한 개체명 인식 모델을 학습하고, 장르별 예측 성능을 비교 분석했습니다.
- BERT-BiLSTM-CRF 모델이 가장 높은 성능을 보임
- 장르별 예측 결과, 특정 장르에서 학습된 모델이 다른 장르의 텍스트에 대해 예측 성능이 저하되는 현상을 확인
- 예시: 역사 소설의 경우, 같은 역사적 배경을 공유하는 무협 장르에서 학습된 모델이 높은 성능을 보임
연구의 의의
본 연구는 다양한 장르의 중국 온라인 소설을 기반으로 개체명 인식 연구를 위한 대규모 말뭉치를 구축하고, 장르별 특징을 분석하여 개체명 인식 성능 향상에 기여할 수 있는 기반을 마련했습니다. 또한, 교차 장르 실험을 통해 장르별 특성이 개체명 인식 성능에 미치는 영향을 분석하고, 특정 도메인에 특화된 말뭉치의 중요성을 강조했습니다.
Статистика
본 말뭉치는 13개 장르의 260개 소설에서 추출한 105,851개 문장, 5,379,749개 단어, 263,135개 개체명을 포함합니다.
전체 개체명 중 인물 개체명은 197,597개 (74.39%), 장소 개체명은 45,094개 (18.15%), 조직 개체명은 20,444개 (7.46%)로 나타났습니다.
인물 개체명의 평균 길이는 3.64자, 장소 개체명은 3.60자, 조직 개체명은 4.87자입니다.
테스트 데이터셋에서 OOV 개체명과 IV 개체명의 비율은 약 1:2이며, 각각 1417개, 3109개입니다.
OOV 개체명에 대한 BERT-BiLSTM-CRF 모델의 F1 점수는 45.07%이며, 특히 OOV 장소 개체명의 F1 점수는 31.63%로 저조합니다.
Цитати
"Although great progress has been made in news domain and some vertical domains, NER research in literary domain has been limited due to the lack of annotated data (Jockers, 2013)."
"The OOV problem is more challenging in literary texts, which is another problem we plan to address."