Core Concepts
언어 간 통사적 유사성을 부분 품사 n-그램 분포를 통해 정량화하고, 이를 바탕으로 언어 간 관계를 분석하였다. 또한 언어적 거리와 지리적 거리 간의 상관관계를 확인하였다.
Abstract
이 연구는 67개의 현대 유라시아 언어를 대상으로 부분 품사(POS) 태깅 데이터를 활용하여 언어 간 관계를 분석하였다.
먼저 정보 이론적 접근을 통해 POS 3-그램 분포가 언어의 통사적 특성을 효과적으로 포착할 수 있음을 보였다. 이를 바탕으로 언어 간 Jensen-Shannon 거리를 계산하여 언어 군집을 분석하였다. 그 결과 잘 알려진 언어 가족 및 그룹들이 뚜렷하게 드러났으며, 일부 예외적인 경우는 언어의 형태론적 유형과 관련이 있음을 확인하였다.
더불어 언어적 거리와 지리적 거리 간에 유의미한 상관관계가 있음을 발견하였다. 대부분의 경우 지리적으로 근접한 언어들이 통사적으로도 유사한 경향을 보였지만, 바스크어와 같은 예외도 존재하였다.
이 연구 결과는 언어 관계 분석에 있어 통사적 특성의 중요성을 보여주며, 언어 간 유사성과 지리적 근접성의 상관관계를 실증적으로 확인하였다.
Stats
대부분의 언어에서 0차 및 1차 전이 확률을 고려할 때 예측 가능성이 크게 향상된다.
2차 이상의 전이 확률을 고려해도 추가적인 정보 이득은 크지 않다.
언어적 거리와 지리적 거리 간 피어슨 상관계수는 0.447로 유의미한 양의 상관관계를 보인다.
Quotes
"언어는 공통 언어적 특징을 공유하는 가족으로 분류된다. 이러한 접근법은 다양한 언어 간 유전적 관계를 이해하는 데 성공적이었지만, 구문론과 같은 덜 연구된 언어 수준에서 그들의 관련성을 정확하게 정량화하기 위해서는 더 많은 분석이 필요하다."
"우리의 분석은 공간적으로 근접한 언어가 더 먼 거리에 있는 언어에 비해 더 유사한 형태론적 특성을 보인다는 것을 보여준다."