In dieser Arbeit führen wir den WAV2GLOSS-Task ein, der darauf abzielt, Interlinear-Glossentexte (IGT) direkt aus Sprachaufnahmen zu extrahieren. IGT ist eine Form der linguistischen Annotation, die aus vier Komponenten besteht: (1) Transkription, (2) morphologische Segmentierung, (3) Glossen und (4) freie Übersetzung in eine Mehrheitssprache.
Um diesen Task zu unterstützen, stellen wir den FIELDWORK-Datensatz vor, eine Sammlung von Sprachaufnahmen mit allen vier IGT-Komponenten für 37 Sprachen. Der Datensatz folgt einem einheitlichen Format und enthält Train-, Entwicklungs- und Testaufspaltungen.
Wir vergleichen verschiedene End-to-End- und Kaskaden-Methoden für die WAV2GLOSS-Aufgabe. Die Ergebnisse zeigen, dass vortrainierte Decoder bei der Übersetzung und Glossierung helfen, dass Multi-Task- und mehrsprachige Ansätze unterdurchschnittlich abschneiden und dass End-to-End-Systeme besser abschneiden als Kaskaden-Systeme, trotz der Vorteile der textbasierten Systeme. Wir liefern Benchmarks, um den Weg für zukünftige Forschung zur automatischen Erstellung von IGT aus Sprachaufnahmen zu ebnen.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問