Core Concepts
본 연구는 독일 펀드 투자설명서에서 기업의 아웃소싱 관행에 초점을 맞춘 개체명 인식 및 관계 추출 작업을 위한 데이터셋을 소개한다.
Abstract
본 논문에서는 독일 펀드 투자설명서에서 추출한 948개의 문장으로 구성된 CO-Fun 데이터셋을 소개한다. 이 데이터셋에는 전문가들이 부여한 5,969개의 개체명 주석과 4,102개의 관계 주석이 포함되어 있다. 개체명 유형으로는 '아웃소싱', '기업', '위치', '소프트웨어'가 있으며, 관계 유형으로는 '아웃소싱-기업', '기업-위치'가 있다. 실험 결과, 최신 딥러닝 모델들이 이 데이터셋에서 좋은 성능을 보였다. 익명화된 데이터셋과 주석 지침, 모델 학습 코드는 공개적으로 제공된다.
Stats
948개의 문장에 총 5,969개의 개체명 주석이 달려 있다.
개체명 유형별로는 아웃소싱 2,340개, 기업 2,024개, 위치 1,594개, 소프트웨어 11개가 있다.
총 4,102개의 관계 주석이 달려 있으며, 이 중 아웃소싱-기업 관계가 2,573개, 기업-위치 관계가 1,529개이다.