Sāmayik ist ein neuer Datensatz für die Englisch-Sanskrit-Übersetzung, der aus fünf verschiedenen Quellen zusammengestellt wurde:
Die Bibel - Das Neue Testament: 7.838 parallele Sätze aus dem Neuen Testament, übersetzt ins Sanskrit.
Mann Ki Baat (MKB): 4.047 Sätze aus einer monatlichen Radiosendung des indischen Premierministers, die ins Sanskrit übersetzt wurden.
Gītā Sopānaṁ: 6.130 Sätze aus einem Lehrbuch zum Erlernen des Sanskrit für Anfänger, das ins Englische übersetzt wurde.
Spoken Tutorials: 23.835 Sätze aus Videotutorials zu Open-Source-Software, die ins Sanskrit übersetzt wurden.
NIOS: 11.356 Sätze aus Lehrmaterialien des indischen Fernlehrinstituts NIOS, die ins Sanskrit übersetzt wurden.
Der Datensatz deckt eine Vielzahl zeitgenössischer Themen ab, darunter Weltpolitik, Literaturinterpretation, Pädagogik und mehr. Im Gegensatz zu bestehenden Korpora, die sich hauptsächlich auf klassische Poesie konzentrieren, bietet Sāmayik einen umfassenden Einblick in die moderne Verwendung des Sanskrit in Prosa.
Darüber hinaus stellen die Autoren Benchmark-Modelle für die Übersetzung zwischen Englisch und Sanskrit zur Verfügung, indem sie vier mehrsprachige vortrainierte Modelle anpassen: ByT5, mBART, IndicBART und Indictrans. Diese Modelle zeigen statistisch signifikante Verbesserungen bei der Übersetzung von zeitgenössischen Korpora im Vergleich zu Modellen, die auf älteren Datensätzen mit klassischer Poesie trainiert wurden.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Ayush Mahesh... a las arxiv.org 04-01-2024
https://arxiv.org/pdf/2305.14004.pdfConsultas más profundas