In dieser Arbeit wird eine Technik namens District Guided Token (DGT) vorgestellt, um die Leistung von Seq2Seq-Modellen für die Transkription von bengalischen Texten in IPA zu verbessern. Die Kernidee besteht darin, dem Modell explizite Informationen über den regionalen Dialekt oder "Bezirk" des Eingabetexts bereitzustellen, bevor die IPA-Transkription generiert wird. Dies wird erreicht, indem ein Bezirkstoken an die Eingabesequenz vorangestellt wird, um das Modell effektiv dabei zu unterstützen, die einzigartigen phonetischen Muster zu erfassen, die mit jedem Bezirk verbunden sind.
Die DGT-Technik wird verwendet, um verschiedene Encoder-Decoder-Modelle, einschließlich des kürzlich vorgestellten byte-basierten ByT5-Modells, auf einem neuen Datensatz, der sechs Bezirke von Bangladesch umfasst, feinabzustimmen. Der byte-basierte Ansatz ist für diese Aufgabe besonders gut geeignet, da er das Problem der Out-of-Vocabulary-Wörter (OOV) durch den direkten Umgang mit den Bytesequenzen des Eingangstexts abmildert.
Durch umfangreiche Experimente wird die Wirksamkeit der DGT-Technik bei der Verbesserung der Leistung von Seq2Seq-Modellen für die Aufgabe der Bengalisch-Text-zu-IPA-Transkription demonstriert. Die Ergebnisse heben die Bedeutung der Einbeziehung von Informationen zu regionalen Dialekten in Systeme für natürliche Sprachverarbeitung für Sprachen mit vielfältigen linguistischen Variationen hervor.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문