Dieses Forschungsprojekt präsentiert NSina, ein großes Nachrichtenkorpus für die Sinhala-Sprache, das zum Training von Sprachmodellen verwendet werden kann. NSina ist größer und aktueller als frühere Nachrichtenkorpora, die für Sinhala veröffentlicht wurden, wie z.B. SinMin. Darüber hinaus veröffentlichen wir drei Benchmark-Datensätze, die aus NSina entnommen wurden und zur Evaluierung von Sprachmodellen verwendet werden können.
Die Ergebnisse zeigen, dass mehrsprachige Transformer-Modelle wie XLM-R ähnliche oder sogar bessere Ergebnisse erzielen als sprachspezifische Modelle wie SinBERT, was darauf hindeutet, dass weitere Forschung zur Entwicklung von Sinhala-spezifischen Transformer-Modellen erforderlich ist. Darüber hinaus schneiden alle getesteten Modelle bei der vorgeschlagenen Aufgabe zur Textgenerierung schlecht ab, was darauf hindeutet, dass weitere Sprachgenerierungsmodelle für Sinhala erforscht werden müssen.
In zukünftigen Arbeiten möchten wir NSina zusammen mit anderen verfügbaren Sinhala-Ressourcen nutzen, um robuste Transformer-Modelle zu erstellen. Außerdem werden wir ein GLUE-ähnliches Benchmark für Sinhala erstellen, das die in diesem Papier vorgeschlagenen Aufgaben sowie weitere Aufgaben umfasst, um eine zentrale Plattform für die Evaluierung der Leistungsfähigkeit von Sprachmodellen bei der Verarbeitung von Sinhala zu schaffen.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Hansi Hettia... kl. arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16571.pdfDybere Forespørgsler