Die Studie untersucht die automatische Glossierung in Umgebungen mit geringen Ressourcen. Dazu wird ein neuronales Modell mit harter Aufmerksamkeit um eingebettete Übersetzungsinformationen erweitert, die aus interlinear glossierten Texten extrahiert werden. Die Übersetzungsinformationen werden mithilfe großer Sprachmodelle wie BERT und T5 enkodiert. Zusätzlich wird ein zeichenbasierter Decoder eingeführt, um die Leistung in Umgebungen mit sehr geringen Ressourcen zu verbessern.
Die Experimente auf Datensätzen der SIGMORPHON 2023 Shared Task zur Interlinear-Glossierung zeigen, dass die Einbindung von Übersetzungsinformationen und der zeichenbasierte Decoder zu einer durchschnittlichen Verbesserung der Glossierungsgenauigkeit von 3,97 Prozentpunkten im Vergleich zum bisherigen Stand der Technik führen. In einer simulierten Umgebung mit sehr geringen Ressourcen, in der nur 100 Sätze zum Training verwendet werden, erreicht das System eine durchschnittliche Verbesserung von 9,78 Prozentpunkten gegenüber dem einfachen Baseline-Modell.
Die Ergebnisse zeigen, dass die Einbindung von Übersetzungsinformationen, insbesondere in Umgebungen mit geringen Ressourcen, eine vielversprechende Möglichkeit zur Dokumentation und Erhaltung bedrohter Sprachen darstellt.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Changbing Ya... alle arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08189.pdfDomande più approfondite