In dieser Arbeit führen wir den WAV2GLOSS-Task ein, der darauf abzielt, Interlinear-Glossentexte (IGT) direkt aus Sprachaufnahmen zu extrahieren. IGT ist eine Form der linguistischen Annotation, die aus vier Komponenten besteht: (1) Transkription, (2) morphologische Segmentierung, (3) Glossen und (4) freie Übersetzung in eine Mehrheitssprache.
Um diesen Task zu unterstützen, stellen wir den FIELDWORK-Datensatz vor, eine Sammlung von Sprachaufnahmen mit allen vier IGT-Komponenten für 37 Sprachen. Der Datensatz folgt einem einheitlichen Format und enthält Train-, Entwicklungs- und Testaufspaltungen.
Wir vergleichen verschiedene End-to-End- und Kaskaden-Methoden für die WAV2GLOSS-Aufgabe. Die Ergebnisse zeigen, dass vortrainierte Decoder bei der Übersetzung und Glossierung helfen, dass Multi-Task- und mehrsprachige Ansätze unterdurchschnittlich abschneiden und dass End-to-End-Systeme besser abschneiden als Kaskaden-Systeme, trotz der Vorteile der textbasierten Systeme. Wir liefern Benchmarks, um den Weg für zukünftige Forschung zur automatischen Erstellung von IGT aus Sprachaufnahmen zu ebnen.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Taiqi He,Kwa... klokken arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13169.pdfDypere Spørsmål