Khái niệm cốt lõi
言語の統語的特徴を表すPOSタグの分布を分析することで、言語間の関係性を明らかにし、その関係性と地理的近接性との相関を示す。
Tóm tắt
本研究では、67の現代ヨーロッパ・アジア言語のPOSタグ情報を分析し、以下の知見を得た。
POSタグのトリグラム分布を用いることで、言語の統語的特徴を十分に捉えられることを示した。高次のn-gramを考慮する必要はない。
POSタグトリグラムの分布に基づいて言語間の距離を計算し、クラスター分析を行った。その結果、よく知られた言語族や言語群に対応する明確なクラスターが得られた。例外は言語の形態論的特徴の違いで説明できる。
言語の統語的距離と地理的距離の間に有意な相関があることを発見した。ほとんどの場合、地理的に近い言語ほど統語的にも近い。ただし、バスク語のように例外もある。
以上より、言語の統語的特徴と地理的分布には密接な関係があることが明らかになった。本手法は言語学以外の分野でも応用可能な一般的な手法である。
Thống kê
言語間の統語的距離が地理的距離と対数的に相関する。
言語間の距離相関係数は0.447であり、統計的に有意である(p < 0.001)。