Die Studie untersucht die automatische Glossierung in Umgebungen mit geringen Ressourcen. Dazu wird ein neuronales Modell mit harter Aufmerksamkeit um eingebettete Übersetzungsinformationen erweitert, die aus interlinear glossierten Texten extrahiert werden. Die Übersetzungsinformationen werden mithilfe großer Sprachmodelle wie BERT und T5 enkodiert. Zusätzlich wird ein zeichenbasierter Decoder eingeführt, um die Leistung in Umgebungen mit sehr geringen Ressourcen zu verbessern.
Die Experimente auf Datensätzen der SIGMORPHON 2023 Shared Task zur Interlinear-Glossierung zeigen, dass die Einbindung von Übersetzungsinformationen und der zeichenbasierte Decoder zu einer durchschnittlichen Verbesserung der Glossierungsgenauigkeit von 3,97 Prozentpunkten im Vergleich zum bisherigen Stand der Technik führen. In einer simulierten Umgebung mit sehr geringen Ressourcen, in der nur 100 Sätze zum Training verwendet werden, erreicht das System eine durchschnittliche Verbesserung von 9,78 Prozentpunkten gegenüber dem einfachen Baseline-Modell.
Die Ergebnisse zeigen, dass die Einbindung von Übersetzungsinformationen, insbesondere in Umgebungen mit geringen Ressourcen, eine vielversprechende Möglichkeit zur Dokumentation und Erhaltung bedrohter Sprachen darstellt.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문