In dieser Arbeit führen wir den WAV2GLOSS-Task ein, der darauf abzielt, Interlinear-Glossentexte (IGT) direkt aus Sprachaufnahmen zu extrahieren. IGT ist eine Form der linguistischen Annotation, die aus vier Komponenten besteht: (1) Transkription, (2) morphologische Segmentierung, (3) Glossen und (4) freie Übersetzung in eine Mehrheitssprache.
Um diesen Task zu unterstützen, stellen wir den FIELDWORK-Datensatz vor, eine Sammlung von Sprachaufnahmen mit allen vier IGT-Komponenten für 37 Sprachen. Der Datensatz folgt einem einheitlichen Format und enthält Train-, Entwicklungs- und Testaufspaltungen.
Wir vergleichen verschiedene End-to-End- und Kaskaden-Methoden für die WAV2GLOSS-Aufgabe. Die Ergebnisse zeigen, dass vortrainierte Decoder bei der Übersetzung und Glossierung helfen, dass Multi-Task- und mehrsprachige Ansätze unterdurchschnittlich abschneiden und dass End-to-End-Systeme besser abschneiden als Kaskaden-Systeme, trotz der Vorteile der textbasierten Systeme. Wir liefern Benchmarks, um den Weg für zukünftige Forschung zur automatischen Erstellung von IGT aus Sprachaufnahmen zu ebnen.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Taiqi He,Kwa... lúc arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13169.pdfYêu cầu sâu hơn