Core Concepts
이 데이터셋은 독일어 뉴스 기사에서 누가 무엇을 말했는지 자동으로 추출할 수 있는 시스템 개발을 위한 기반을 제공한다.
Abstract
이 논문은 독일어 뉴스 기사에서 인용문 귀속을 자동으로 추출하기 위한 새로운 데이터셋을 소개한다. 이 데이터셋은 1,000개의 WIKINEWS 기사에서 수작업으로 주의 깊게 주석을 단 것으로, 인용문의 유형, 화자, 청자, 맥락 등 다양한 정보를 포함하고 있다.
데이터셋 생성 과정에서 주석 작업자 간 일치도를 높이기 위해 노력했으며, 최종적으로 높은 수준의 일치도를 달성했다. 또한 데이터셋에 대한 정량적 분석을 수행하여 데이터셋의 특성을 자세히 살펴보았다.
이 데이터셋을 활용하여 두 가지 기존 시스템을 평가한 결과, 높은 정밀도를 보였지만 낮은 재현율로 인해 개선의 여지가 있음을 확인했다. 이를 통해 이 데이터셋이 독일어 뉴스 기사에서 인용문 귀속을 자동으로 추출하는 새로운 시스템 개발에 유용하게 활용될 수 있음을 보여주었다.
Stats
인용문의 길이는 5-20 토큰이 대부분이며, 직접 인용문이 가장 짧고 간접/자유 간접 인용문이 가장 길다.
화자 표현은 대부분 5 토큰 미만이지만 일부 설명적 구문으로 인해 15 토큰을 넘기도 한다.
틀은 문장 길이와 유사한 정규 분포를 보이며 최대 40 토큰까지 나타난다.
청자 표현은 1-8 토큰 사이로 드물게 나타난다.
Quotes
"우리가 해낼 수 있다."
"해결책을 찾을 것이다."
"더 빠른 결정이 필요하다."
"더 많은 돈이 교육에 투입되어야 한다."
"경찰이 그 지역을 광범위하게 봉쇄했다."