Core Concepts
Die Autoren erweitern den Translate-Train-Ansatz zur Erstellung von ColBERT-X-Modellen für die CLIR-Aufgaben in den afrikanischen Sprachen Hausa, Somali, Swahili und Yoruba. Sie untersuchen den Einfluss verschiedener Feinabstimmungsschritte wie maschinelle Übersetzung, Sprachmodell-Feinabstimmung und domänenspezifische Feinabstimmung auf die Retrievalleistung.
Abstract
Die Autoren beschreiben ihre Teilnahme an den CLIR-Aufgaben der CIRAL-Kampagne für afrikanische Sprachen bei FIRE 2023. Ihre Systeme verwenden maschinelle Übersetzungsmodelle, um Dokumente und Trainingspassagen zu übersetzen, und ColBERT-X als Retrievalmodell.
Die Autoren untersuchen den Translate-Train-Ansatz, bei dem englische Abfragen und maschinell übersetzte Passagen in den afrikanischen Sprachen zum Training von CLIR-Modellen verwendet werden. Sie vergleichen dies mit Modellen, die nur auf englischen Texten trainiert wurden.
Zusätzlich führen die Autoren eine Feinabstimmung des Sprachmodells auf Yoruba-Texten durch, da Yoruba nicht in der Vortrainingsphase von XLM-RoBERTa enthalten war. Sie untersuchen auch den Einsatz einer neuen Technik namens JH POLO, um domänenspezifische Trainingsbeispiele zu generieren.
Die Ergebnisse zeigen, dass die Übersetzung der Dokumente in Englisch und die Verwendung eines englischen ColBERT-Modells die effektivste Retrievalleistung liefert. Die ColBERT-X-Modelle, die mit Translate-Train trainiert wurden, sind ebenfalls effektiv, insbesondere wenn das Sprachmodell zusätzlich feinabgestimmt wurde. Die JH POLO-Feinabstimmung bringt jedoch keine Verbesserung, außer für Yoruba, wo sie die Leistung steigert.
Stats
Die Größe der Trainingsbitext-Daten für die maschinelle Übersetzung reicht von 786.000 Sätzen für Somali bis zu 9,9 Millionen Sätzen für Swahili.
Die BLEU-Werte für die Übersetzungsqualität auf dem FLORES-101-Testset liegen zwischen 5,5 für Yoruba und 37,7 für Swahili.
Die Größe der übersetzten MS MARCO-Datensätze reicht von 502 Millionen Wörtern für Swahili bis zu 672 Millionen Wörtern für Yoruba.
Quotes
Keine relevanten wörtlichen Zitate identifiziert.