Core Concepts
정보 추출은 텍스트 내에서 하위 시퀀스를 식별하고 레이블을 지정하는 작업이다. 이 작업들은 다양한 형태로 나타나지만, 스팬이라는 공통적인 개념을 중심으로 통합적으로 이해할 수 있다.
Abstract
이 논문은 정보 추출 작업에 대한 통합적 관점을 제시한다. 정보 추출은 텍스트 내에서 관련 정보를 식별하고 구조화된 데이터와 연결하는 작업이다. 그러나 정보 추출 작업의 다양성으로 인해 발전이 저해되고 있다.
이 논문은 스팬이라는 개념을 중심으로 정보 추출 작업을 재정의한다. 스팬은 텍스트 내의 하위 시퀀스와 해당 레이블로 구성된다. 이를 통해 다양한 정보 추출 작업(개체명 인식, 개체 링킹, 개체 유형 분류 등)을 동일한 기본 작업인 스팬 기반 정보 추출로 재해석할 수 있다.
논문은 정보 추출 작업의 평가 방법과 모델 구조에 대해서도 통합적 관점을 제시한다. 다양한 정보 추출 작업이 스팬 예측이라는 공통적인 목표를 가지고 있기 때문에, 이들 간의 성능 비교와 모델 구조의 공유가 가능해진다.
Stats
정보 추출 작업은 텍스트 내 하위 시퀀스를 식별하고 레이블을 지정하는 작업이다.
스팬은 텍스트 내 하위 시퀀스와 해당 레이블로 구성된다.
다양한 정보 추출 작업(개체명 인식, 개체 링킹, 개체 유형 분류 등)은 스팬 기반 정보 추출이라는 공통적인 작업으로 재해석될 수 있다.
Quotes
"정보 추출은 텍스트 내에서 관련 정보를 식별하고 구조화된 데이터와 연결하는 작업이다."
"스팬은 텍스트 내 하위 시퀀스와 해당 레이블로 구성된다."
"다양한 정보 추출 작업은 스팬 기반 정보 추출이라는 공통적인 작업으로 재해석될 수 있다."