Core Concepts
이 연구는 가이드된 원격 감독 기법을 사용하여 독일어 전기 관계 추출 데이터셋을 구축하였으며, 이를 통해 다국어 및 교차 언어 관계 추출 실험을 수행하였다.
Abstract
이 논문은 전기 정보 추출을 위한 관계 추출 작업에 대해 다루고 있다. 관계 추출은 개체 추출과 함께 정보 추출 시스템의 핵심 구성 요소이다. 그러나 수동 주석은 시간과 비용이 많이 들어 대부분 영어로만 제한되어 있다. 이에 따라 원격 감독 기법이 제안되었지만, 이 기법에도 한계가 있다.
이 연구에서는 가이드된 원격 감독 기법을 사용하여 독일어 전기 관계 추출 데이터셋을 구축하였다. 이를 위해 Pantheon, Wikidata, Wikipedia 등의 데이터 소스를 활용하였다. 자동 레이블링 과정에서 여러 가지 도전과제를 극복하였으며, 2,000개의 문장으로 구성된 수동 주석 데이터셋도 함께 제공하였다.
구축된 데이터셋을 활용하여 다양한 신경망 모델을 학습하고 평가하였다. 영어 데이터셋과의 비교 결과, 독일어 데이터셋의 성능이 유사한 수준임을 확인하였다. 또한 교차 언어 학습과 다국어 학습 실험을 통해 가이드된 원격 감독 기법이 저자원 언어에도 적용 가능함을 보였다.
Stats
독일어 데이터셋에는 총 83,183개의 관계 인스턴스가 포함되어 있다.
영어 데이터셋에는 총 346,257개의 관계 인스턴스가 포함되어 있다.