Core Concepts
위키피디아 하이퍼링크를 활용하여 대규모 지명 분석 말뭉치를 자동으로 구축하였다. 이 말뭉치는 지명 표현의 좌표 정보를 포함하며, 45.6%의 지명 표현이 모호하여 여러 위치를 나타내는 것으로 나타났다.
Abstract
이 연구에서는 위키피디아 하이퍼링크 기반 지명 연결(WHLL) 방법을 제안하여 대규모 지명 분석 말뭉치를 자동으로 구축하였다. WHLL은 위키피디아 문서의 하이퍼링크를 활용하여 문서 내 지명 표현에 좌표 정보를 자동으로 할당한다. 이를 통해 구축된 WHLL 말뭉치는 130만 개의 문서와 약 780만 개의 고유 지명 표현을 포함하고 있으며, 45.6%의 지명 표현이 모호하여 여러 위치를 나타내는 것으로 나타났다. 또한 9.9%의 지명 표현은 가장 빈번한 좌표가 아닌 다른 좌표를 가지고 있어 이를 정확히 식별하는 것이 어려운 것으로 확인되었다. 실험 결과, 문장 내 지명 표현 간 의존 관계를 활용하는 것이 단순히 가장 유명한 지명을 선택하는 것보다 좌표 추정 정확도가 높은 것으로 나타났다.
Stats
전체 문서 수: 1,315,117개
문서당 평균 문장 수: 17.7개
문서당 평균 토큰 수: 420.1개
문서당 평균 지명 표현 수: 11.3개
문서당 평균 고유 지명 표현 수: 7.8개
전체 지명 표현 수: 14,726,908개
전체 고유 지명 표현 수: 1,571,291개
모호한 지명 표현 비율: 45.6%
모호하고 비주류인 지명 표현 비율: 9.9%