Core Concepts
Durch die Verwendung einer angepassten Translate-Align-Retrieve-Methode wurde der größte serbische Frage-Antwort-Datensatz mit mehr als 87.000 Beispielen erstellt. Dieser Datensatz wurde verwendet, um mehrere vortrainierte Frage-Antwort-Modelle feinabzustimmen, wobei das BERTić-Modell auf der lateinischen Version des Datensatzes die besten Ergebnisse erzielte.
Abstract
Die Autoren konzentrieren sich in dieser Arbeit auf die Erstellung eines synthetischen Frage-Antwort-Datensatzes für die serbische Sprache, um das Problem des Datenmangels zu überwinden. Sie verwenden eine angepasste Version der Translate-Align-Retrieve-Methode, um den größten serbischen Frage-Antwort-Datensatz mit mehr als 87.000 Beispielen zu erstellen, den sie SQuAD-sr nennen. Um die Skriptdualität des Serbischen zu berücksichtigen, generierten sie sowohl kyrillische als auch lateinische Versionen des Datensatzes.
Die Autoren untersuchten die Qualität des Datensatzes und verwendeten ihn, um mehrere vortrainierte Frage-Antwort-Modelle feinabzustimmen. Die besten Ergebnisse wurden durch die Feinabstimmung des BERTić-Modells auf dem lateinischen SQuAD-sr-Datensatz erzielt, mit 73,91% Exact Match und 82,97% F1-Wert auf dem serbischen XQuAD-Datensatz, den sie zu Evaluationszwecken übersetzt haben.
Die Ergebnisse zeigen, dass das Modell die Zero-Shot-Basislinien übertrifft, aber die menschliche Leistung nicht übersteigt. Die Autoren stellen fest, dass die Verwendung eines monolinguale vortrainierten Modells gegenüber einem mehrsprachigen von Vorteil ist und dass die Leistung durch die Verwendung des lateinischen anstelle des kyrillischen Skripts verbessert wird. Durch zusätzliche Analysen zeigen sie, dass Fragen zu numerischen Werten oder Daten mit größerer Wahrscheinlichkeit korrekt beantwortet werden als andere Fragetypen.
Abschließend kommen die Autoren zu dem Schluss, dass SQuAD-sr von ausreichender Qualität ist, um ein serbisches Frage-Antwort-Modell feinabzustimmen, da es an manuell erstellten und annotierten Datensätzen mangelt.
Stats
Der serbische SQuAD-sr-Datensatz enthält 87.175 Beispiele, nur 424 weniger als SQuAD v1.1.
Die durchschnittliche Kontextlänge beträgt 715 Wörter für die lateinische Version von SQuAD-sr und 758 Wörter für den serbischen XQuAD-Datensatz.
Die durchschnittliche Fragenlänge beträgt 57 Wörter für SQuAD-sr und 58 Wörter für XQuAD.
Die durchschnittliche Antworttlänge beträgt 20 Wörter für SQuAD-sr und 19 Wörter für XQuAD.
Quotes
"Durch die Verwendung einer angepassten Translate-Align-Retrieve-Methode haben wir den größten serbischen Frage-Antwort-Datensatz mit mehr als 87.000 Beispielen erstellt, den wir SQuAD-sr nennen."
"Die besten Ergebnisse wurden durch die Feinabstimmung des BERTić-Modells auf dem lateinischen SQuAD-sr-Datensatz erzielt, mit 73,91% Exact Match und 82,97% F1-Wert auf dem serbischen XQuAD-Datensatz."
"Die Ergebnisse zeigen, dass unser Modell die Zero-Shot-Basislinien übertrifft, aber die menschliche Leistung nicht übersteigt."