Die Autoren konzentrieren sich in dieser Arbeit auf die Erstellung eines synthetischen Frage-Antwort-Datensatzes für die serbische Sprache, um das Problem des Datenmangels zu überwinden. Sie verwenden eine angepasste Version der Translate-Align-Retrieve-Methode, um den größten serbischen Frage-Antwort-Datensatz mit mehr als 87.000 Beispielen zu erstellen, den sie SQuAD-sr nennen. Um die Skriptdualität des Serbischen zu berücksichtigen, generierten sie sowohl kyrillische als auch lateinische Versionen des Datensatzes.
Die Autoren untersuchten die Qualität des Datensatzes und verwendeten ihn, um mehrere vortrainierte Frage-Antwort-Modelle feinabzustimmen. Die besten Ergebnisse wurden durch die Feinabstimmung des BERTić-Modells auf dem lateinischen SQuAD-sr-Datensatz erzielt, mit 73,91% Exact Match und 82,97% F1-Wert auf dem serbischen XQuAD-Datensatz, den sie zu Evaluationszwecken übersetzt haben.
Die Ergebnisse zeigen, dass das Modell die Zero-Shot-Basislinien übertrifft, aber die menschliche Leistung nicht übersteigt. Die Autoren stellen fest, dass die Verwendung eines monolinguale vortrainierten Modells gegenüber einem mehrsprachigen von Vorteil ist und dass die Leistung durch die Verwendung des lateinischen anstelle des kyrillischen Skripts verbessert wird. Durch zusätzliche Analysen zeigen sie, dass Fragen zu numerischen Werten oder Daten mit größerer Wahrscheinlichkeit korrekt beantwortet werden als andere Fragetypen.
Abschließend kommen die Autoren zu dem Schluss, dass SQuAD-sr von ausreichender Qualität ist, um ein serbisches Frage-Antwort-Modell feinabzustimmen, da es an manuell erstellten und annotierten Datensätzen mangelt.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문