Der Artikel untersucht, wie große Sprachmodelle (Large Language Models, LLMs) zur automatischen Erstellung und Bewertung von Multiple-Choice-Leseverständnisfragen (MCRC) verwendet werden können. Dafür wurde ein Datensatz mit deutschen MCRC-Aufgaben aus Online-Sprachkursen zusammengestellt.
Für die Evaluation wurde ein Protokoll entwickelt, das die Beantwortbarkeit (answerability) und Erratbarkeit (guessability) der Fragen misst. Dieses Protokoll wurde sowohl für menschliche als auch für automatische Bewertung durch LLMs eingesetzt.
Die Ergebnisse zeigen, dass die LLMs Llama 2 und GPT-4 in der Lage sind, Fragen von akzeptabler Qualität zu generieren. GPT-4 schneidet dabei deutlich besser ab als Llama 2. Für die automatische Bewertung erweist sich GPT-4 als zuverlässiger als Llama 2, da seine Antworten den menschlichen Annotationen am ähnlichsten sind.
Insgesamt ist der Einsatz von LLMs ein vielversprechender Ansatz, um Leseverständnisfragen in Sprachen zu erstellen und zu bewerten, für die nur wenige Ressourcen verfügbar sind.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Andr... lúc arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07720.pdfYêu cầu sâu hơn