Core Concepts
본 논문은 단일체 탐지와 공동 참조 해결을 위한 효율적인 파이프라인 시스템 SPLICE를 제안한다. 이를 통해 기존 엔드-투-엔드 접근법의 한계를 극복하고 성능을 향상시킨다.
Abstract
본 논문은 공동 참조 해결을 위한 효율적인 파이프라인 시스템 SPLICE를 제안한다. 주요 내용은 다음과 같다:
단일체 탐지를 위해 기존 OntoNotes 데이터셋에 누락된 단일체 정보를 복원하는 방법을 제안한다. 이를 위해 ARRAU 데이터셋의 단일체 주석을 활용하여 XGBoost 기반 분류기를 학습한다. 이 분류기를 통해 OntoNotes 데이터셋에서 약 94%의 단일체 recall을 달성한다.
단일체 정보를 활용하여 두 단계로 구성된 SPLICE 파이프라인을 제안한다. 첫 번째 단계에서는 NNER 기반 언급 탐지기를 통해 언급 후보를 생성하고, 두 번째 단계에서는 언급 점수를 동일하게 설정하여 공동 참조 클러스터링을 수행한다.
OntoNotes 내부 평가에서 SPLICE는 엔드-투-엔드 모델과 유사한 성능을 보이며, OntoGUM 데이터셋에서는 1.1 F1 점수 향상을 달성한다. 이는 단일체 정보가 도메인 외 성능 향상에 기여함을 보여준다.
언급 탐지 정확도와 재현율이 공동 참조 해결에 미치는 영향을 분석한다. 정확도 향상이 재현율 향상보다 더 큰 이점을 제공함을 확인했다.
Stats
단일체 탐지기의 OntoNotes 개발 데이터셋 성능: 정확도 37.84%, 재현율 95.64%, F1 54.22%
단일체 탐지기의 OntoGUM 테스트 데이터셋 성능: 정확도 37.75%, 재현율 96.23%, F1 54.23%
단일체 탐지기의 OntoGUM 테스트 데이터셋 성능(OOD): 정확도 37.21%, 재현율 91.66%, F1 52.94%