Die Studie analysiert Sprachdaten aus der Grambank-Datenbank, die grammatikalische Merkmale von Sprachen in Südamerika enthält. Zunächst wird die Methode der multiplen Korrespondenzanalyse (MCA) verwendet, um die Sprachmerkmale in einen Euklidischen Raum zu projizieren. Anschließend wird die Topologische Datenanalyse (TDA) angewendet, um die topologischen Strukturen der resultierenden Punktwolken für einzelne Sprachen zu untersuchen.
Für die Sprachfamilie Nuclear-Macro-Jê zeigt sich, dass die Jê-Untergruppe und die nicht-Jê-Untergruppe signifikant unterschiedliche topologische Strukturen aufweisen. Ähnlich lässt sich auch für die Quechua-Sprachfamilie ein signifikanter Unterschied zwischen den nördlichen und südlichen Quechua-Sprachen feststellen.
Die Analyse der topologischen Invarianten, insbesondere der ersten Betti-Zahl, ermöglicht es, charakteristische Merkmale der Sprachfamilien zu identifizieren. Die Studie demonstriert, wie die Kombination von MCA und TDA ein nützliches Werkzeug für die Untersuchung von Sprachdaten darstellt.
To Another Language
from source content
arxiv.org
Głębsze pytania