Der Artikel untersucht, wie große Sprachmodelle (Large Language Models, LLMs) zur automatischen Erstellung und Bewertung von Multiple-Choice-Leseverständnisfragen (MCRC) verwendet werden können. Dafür wurde ein Datensatz mit deutschen MCRC-Aufgaben aus Online-Sprachkursen zusammengestellt.
Für die Evaluation wurde ein Protokoll entwickelt, das die Beantwortbarkeit (answerability) und Erratbarkeit (guessability) der Fragen misst. Dieses Protokoll wurde sowohl für menschliche als auch für automatische Bewertung durch LLMs eingesetzt.
Die Ergebnisse zeigen, dass die LLMs Llama 2 und GPT-4 in der Lage sind, Fragen von akzeptabler Qualität zu generieren. GPT-4 schneidet dabei deutlich besser ab als Llama 2. Für die automatische Bewertung erweist sich GPT-4 als zuverlässiger als Llama 2, da seine Antworten den menschlichen Annotationen am ähnlichsten sind.
Insgesamt ist der Einsatz von LLMs ein vielversprechender Ansatz, um Leseverständnisfragen in Sprachen zu erstellen und zu bewerten, für die nur wenige Ressourcen verfügbar sind.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問