이 연구는 67개의 현대 유라시아 언어를 대상으로 부분 품사(POS) 태깅 데이터를 활용하여 언어 간 관계를 분석하였다.
먼저 정보 이론적 접근을 통해 POS 3-그램 분포가 언어의 통사적 특성을 효과적으로 포착할 수 있음을 보였다. 이를 바탕으로 언어 간 Jensen-Shannon 거리를 계산하여 언어 군집을 분석하였다. 그 결과 잘 알려진 언어 가족 및 그룹들이 뚜렷하게 드러났으며, 일부 예외적인 경우는 언어의 형태론적 유형과 관련이 있음을 확인하였다.
더불어 언어적 거리와 지리적 거리 간에 유의미한 상관관계가 있음을 발견하였다. 대부분의 경우 지리적으로 근접한 언어들이 통사적으로도 유사한 경향을 보였지만, 바스크어와 같은 예외도 존재하였다.
이 연구 결과는 언어 관계 분석에 있어 통사적 특성의 중요성을 보여주며, 언어 간 유사성과 지리적 근접성의 상관관계를 실증적으로 확인하였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문