Die Studie befasst sich mit der automatischen Erstellung von Interlinear-Glossentexten (IGT) direkt aus Sprachaufnahmen. IGT ist eine Form der linguistischen Annotation, die aus vier Komponenten besteht: (1) Transkriptionen, (2) morphologischer Segmentierung, (3) Glossen und (4) freien Übersetzungen in eine Mehrheitssprache. Die Autoren führen die neue Aufgabe WAV2GLOSS ein, bei der diese vier Annotationskomponenten automatisch aus Sprachaufnahmen extrahiert werden sollen.
Um diese Aufgabe zu unterstützen, präsentieren die Autoren den FIELDWORK-Datensatz, eine Sammlung von Sprachaufnahmen mit allen IGT-Annotationen für 37 Sprachen. Der Datensatz wurde aus verschiedenen Archiven linguistischer Feldaufnahmen zusammengestellt und in ein einheitliches Format gebracht.
Die Autoren vergleichen verschiedene End-to-End- und Kaskaden-Methoden, um die vier Annotationskomponenten aus den Sprachaufnahmen vorherzusagen. Die Analyse zeigt, dass vortrainierte Decoder bei der Übersetzung und Glossierung helfen, dass Multi-Task- und mehrsprachige Ansätze jedoch unterlegen sind. Insgesamt schneiden End-to-End-Systeme besser ab als Kaskaden-Systeme, obwohl die Textmodelle Vorteile haben.
Die Autoren stellen Benchmarks bereit, um den Grundstein für zukünftige Forschung zur automatischen Erstellung von IGT aus Sprachaufnahmen zu legen.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Taiqi He,Kwa... ที่ arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13169.pdfสอบถามเพิ่มเติม