Dieser Artikel präsentiert MultiLS-SP/CA, einen neuartigen Datensatz für die lexikalische Vereinfachung in Spanisch und Katalanisch. Der Datensatz ist der erste seiner Art in Katalanisch und eine wesentliche Ergänzung zu den spärlichen Daten zur automatischen lexikalischen Vereinfachung, die für Spanisch verfügbar sind.
Insbesondere ist MultiLS-SP der erste Datensatz für Spanisch, der skalare Bewertungen der Verständnisschwierigkeit lexikalischer Elemente enthält. Darüber hinaus beschreiben wir Experimente mit diesem Datensatz, die als Baseline für zukünftige Arbeiten mit denselben Daten dienen können.
Der Datensatz wurde durch einen mehrstufigen Prozess erstellt, bei dem zunächst potenzielle Zielwörter identifiziert und dann von Muttersprachlern und Nicht-Muttersprachlern annotiert wurden. Für jedes Zielwort wurde die lexikalische Komplexität auf einer 5-Punkte-Likert-Skala bewertet und bis zu 3 lexikalische Substitute vorgeschlagen.
Die Baseline-Experimente zeigen, dass es noch viel Raum für Verbesserungen gibt, sowohl bei der lexikalischen Vereinfachung als auch bei der Vorhersage der lexikalischen Komplexität. Die Datensätze sollen die Forschung in diesem Bereich für die iberoromanischen Sprachen anregen.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Pertanyaan yang Lebih Dalam