核心概念
대량의 개체 유형과 더 표현력 있는 레이블 설명을 활용하여 소량 샘플 기반 개체명 인식 성능을 향상시킬 수 있다.
要約
이 논문은 소량 샘플 기반 개체명 인식(few-shot named entity recognition, NER)에 대해 다룹니다. 소량 샘플 기반 NER은 적은 수의 주석된 예제만으로 텍스트 내 개체명을 탐지하고 분류하는 작업입니다.
논문에서는 개체 유형에 대한 자연어 설명을 활용하는 접근법을 제안합니다. 먼저 레이블 해석 학습 단계에서 모델은 개체 유형의 언어적 설명과 NER 주석 간의 연관성을 학습합니다. 이후 소량 샘플 기반 태그셋 확장 단계에서는 새로운 개체 유형에 대한 설명과 (선택적으로) 몇 개의 예제만으로 NER을 수행할 수 있습니다.
논문의 핵심 기여는 다음과 같습니다:
- 기존 연구에서 사용된 개체 유형 수보다 수 orders of magnitude 더 많은 개체 유형과 더 표현력 있는 설명을 활용하여 레이블 해석 학습을 수행합니다.
- 이를 위해 ZELDA 데이터셋과 WikiData 정보를 활용하여 새로운 데이터셋을 구축합니다.
- 다양한 실험을 통해 제안 방식이 in-domain, cross-domain, cross-lingual 설정에서 강력한 성능을 보임을 입증합니다.
統計
기존 NER 데이터셋의 레이블 길이는 평균 9.8 ± 2.9 문자인 반면, LITSET 데이터셋의 레이블 길이는 평균 99.8 ± 45.4 문자입니다.
기존 NER 데이터셋의 개체 유형 수는 4 ~ 66개인 반면, LITSET 데이터셋의 개체 유형 수는 약 817,000개입니다.
引用
"기존 연구에서 사용된 개체 유형 수보다 수 orders of magnitude 더 많은 개체 유형과 더 표현력 있는 설명을 활용하여 레이블 해석 학습을 수행합니다."
"제안 방식이 in-domain, cross-domain, cross-lingual 설정에서 강력한 성능을 보임을 입증합니다."