toplogo
Iniciar sesión

Sāmayik: Ein Benchmark-Datensatz für die Übersetzung vom Englischen ins Sanskrit


Conceptos Básicos
Sāmayik ist ein Datensatz mit rund 53.000 parallelen Englisch-Sanskrit-Sätzen, der die zeitgenössische Verwendung des Sanskrit in Prosa abdeckt. Der Datensatz überwindet die Beschränkung bestehender Korpora, die sich hauptsächlich auf Poesie und klassische Literatur konzentrieren.
Resumen

Sāmayik ist ein neuer Datensatz für die Englisch-Sanskrit-Übersetzung, der aus fünf verschiedenen Quellen zusammengestellt wurde:

  1. Die Bibel - Das Neue Testament: 7.838 parallele Sätze aus dem Neuen Testament, übersetzt ins Sanskrit.

  2. Mann Ki Baat (MKB): 4.047 Sätze aus einer monatlichen Radiosendung des indischen Premierministers, die ins Sanskrit übersetzt wurden.

  3. Gītā Sopānaṁ: 6.130 Sätze aus einem Lehrbuch zum Erlernen des Sanskrit für Anfänger, das ins Englische übersetzt wurde.

  4. Spoken Tutorials: 23.835 Sätze aus Videotutorials zu Open-Source-Software, die ins Sanskrit übersetzt wurden.

  5. NIOS: 11.356 Sätze aus Lehrmaterialien des indischen Fernlehrinstituts NIOS, die ins Sanskrit übersetzt wurden.

Der Datensatz deckt eine Vielzahl zeitgenössischer Themen ab, darunter Weltpolitik, Literaturinterpretation, Pädagogik und mehr. Im Gegensatz zu bestehenden Korpora, die sich hauptsächlich auf klassische Poesie konzentrieren, bietet Sāmayik einen umfassenden Einblick in die moderne Verwendung des Sanskrit in Prosa.

Darüber hinaus stellen die Autoren Benchmark-Modelle für die Übersetzung zwischen Englisch und Sanskrit zur Verfügung, indem sie vier mehrsprachige vortrainierte Modelle anpassen: ByT5, mBART, IndicBART und Indictrans. Diese Modelle zeigen statistisch signifikante Verbesserungen bei der Übersetzung von zeitgenössischen Korpora im Vergleich zu Modellen, die auf älteren Datensätzen mit klassischer Poesie trainiert wurden.

edit_icon

Personalizar resumen

edit_icon

Reescribir con IA

edit_icon

Generar citas

translate_icon

Traducir fuente

visual_icon

Generar mapa mental

visit_icon

Ver fuente

Estadísticas
Das Neue Testament enthält 7.838 Sätze aus 260 Kapiteln. Der MKB-Korpus umfasst 47.843 Wörter in 4.047 Sätzen. Der Gītā Sopānaṁ-Korpus enthält 6.130 Sätze mit nur 6.465 einzigartigen Wörtern. Der Spoken Tutorials-Korpus umfasst 237.449 Wörter in 23.835 Sätzen. Der NIOS-Korpus enthält 105.178 Wörter in 11.356 Sätzen.
Citas
Keine relevanten Zitate gefunden.

Ideas clave extraídas de

by Ayush Mahesh... a las arxiv.org 04-01-2024

https://arxiv.org/pdf/2305.14004.pdf
Sāmayik

Consultas más profundas

Wie könnte der Datensatz Sāmayik in Zukunft erweitert werden, um eine noch umfassendere Abdeckung der zeitgenössischen Sanskrit-Literatur zu erreichen?

Um den Datensatz Sāmayik in Zukunft zu erweitern und eine umfassendere Abdeckung der zeitgenössischen Sanskrit-Literatur zu erreichen, könnten folgende Schritte unternommen werden: Incorporating Additional Contemporary Sources: Durch die Einbeziehung von weiteren zeitgenössischen Quellen wie aktuellen Nachrichtenartikeln, Blogs, wissenschaftlichen Arbeiten oder literarischen Werken könnte die Vielfalt und Aktualität des Datensatzes erhöht werden. Erweiterung der Domänenabdeckung: Durch die Erweiterung der Domänenabdeckung auf Bereiche wie Technologie, Medizin, Wissenschaft oder Wirtschaft könnte die Vielseitigkeit des Datensatzes verbessert werden. Einbeziehung von Dialekten und regionalen Variationen: Durch die Integration von Dialekten und regionalen Variationen des Sanskrit könnte die sprachliche Vielfalt im Datensatz erhöht werden, was zu einer umfassenderen Darstellung der zeitgenössischen Sanskrit-Literatur führen würde. Qualitätssicherung und Überprüfung: Eine gründliche Überprüfung und Qualitätskontrolle der Übersetzungen sowie eine Validierung durch Experten könnten die Genauigkeit und Zuverlässigkeit des Datensatzes weiter verbessern.

Welche zusätzlichen linguistischen Analysen könnten durchgeführt werden, um die Unterschiede zwischen der Syntax und Morphologie von Sanskrit in Prosa und Poesie besser zu verstehen?

Um die Unterschiede zwischen der Syntax und Morphologie von Sanskrit in Prosa und Poesie besser zu verstehen, könnten folgende linguistische Analysen durchgeführt werden: Syntaktische Analysen: Vergleichende syntaktische Analysen von Prosa- und Poesie-Texten könnten durchgeführt werden, um Unterschiede in der Satzstruktur, Wortreihenfolge und Satzkomplexität zu identifizieren. Morphologische Analysen: Untersuchungen zur morphologischen Vielfalt und Komplexität in Prosa- und Poesie-Texten könnten durchgeführt werden, um die Verwendung von Verbformen, Kasus, Numeri und anderen morphologischen Merkmalen zu vergleichen. Stilistische Analysen: Eine detaillierte Analyse des sprachlichen Stils in Prosa und Poesie könnte durchgeführt werden, um Unterschiede in der Verwendung von Metaphern, rhetorischen Figuren und stilistischen Elementen zu erfassen. Historische Vergleiche: Durch Vergleiche mit historischen Texten und literarischen Werken aus verschiedenen Epochen könnte ein tieferes Verständnis für die Entwicklung von Syntax und Morphologie in Sanskrit erlangt werden.

Wie könnten die Benchmark-Modelle, die auf Sāmayik trainiert wurden, in praktischen Anwendungen wie computergestützter Sprachlernsoftware oder digitalen Bibliotheken eingesetzt werden?

Die Benchmark-Modelle, die auf Sāmayik trainiert wurden, könnten in verschiedenen praktischen Anwendungen wie computergestützter Sprachlernsoftware oder digitalen Bibliotheken wie folgt eingesetzt werden: Maschinelle Übersetzung: Die trainierten Modelle könnten in maschinellen Übersetzungssystemen verwendet werden, um automatische Übersetzungen zwischen Englisch und Sanskrit für eine Vielzahl von Anwendungen bereitzustellen. Sprachlern-Apps: Die Modelle könnten in Sprachlern-Apps integriert werden, um Lernenden dabei zu helfen, Englisch und Sanskrit zu übersetzen, Vokabeln zu lernen und die Grammatik zu verbessern. Digitale Bibliotheken: In digitalen Bibliotheken könnten die Modelle zur automatischen Übersetzung von Texten, zur Erstellung von Metadaten oder zur Verbesserung der Zugänglichkeit von Sanskrit-Literatur verwendet werden. Kulturelle Erhaltung: Die Modelle könnten dazu beitragen, die kulturelle Erhaltung von Sanskrit-Literatur zu fördern, indem sie eine breitere Leserschaft erreichen und den Zugang zu historischen und zeitgenössischen Texten erleichtern.
0
star