Core Concepts
본 논문은 남미 언어의 위상수학적 구조를 분석하여 언어 간 차이를 밝혀냈다. 특히 Nuclear-Macro-Jˆe 언어군과 Quechuan 언어군에서 유의미한 차이를 발견하였다.
Abstract
본 논문은 언어학 데이터의 위상수학적 분석 방법을 제시한다.
데이터 전처리 과정:
Grambank 데이터셋에서 남미 언어 224개를 선별하고, 결측치가 많은 언어와 특징을 제거하였다.
최종적으로 183개 언어와 60개 이진 특징을 분석 대상으로 선정하였다.
MCA 분석:
MCA 기법을 통해 각 언어의 특징 값들을 4차원 공간에 투영하였다.
각 언어의 하위 점구름을 시각화하여 언어군 간 차이를 관찰하였다.
TDA 분석:
각 언어의 하위 점구름에 대한 지속 호몰로지를 분석하였다.
Nuclear-Macro-Jˆe 언어군에서는 Jˆe-proper 언어와 non-Jˆe-proper 언어 간 유의미한 차이를 발견하였다.
Quechuan 언어군에서는 북부와 남부 언어 간 유의미한 차이를 발견하였다.
Stats
Grambank 데이터셋에는 총 195개 문법 특징이 포함되어 있으며, 이 중 189개가 이진 특징이다.
본 연구에서는 183개 남미 언어와 60개 이진 특징을 분석 대상으로 하였다.