Core Concepts
Dieser Artikel untersucht den Einsatz von Large Language Models (LLMs) zur Bewertung und Erklärung von kurzen Antworten in Formative-Assessment-Aufgaben im Bereich Erdwissenschaften in der Mittelstufe. Durch die Kombination von wenigen Beispielen und aktivem Lernen mit Ketten-von-Gedanken-Begründungen können LLMs erfolgreich Antworten bewerten und aussagekräftige Erklärungen liefern.
Abstract
Der Artikel untersucht den Einsatz von Large Language Models (LLMs) zur automatischen Bewertung und Erklärung von kurzen Antworten in Formative-Assessment-Aufgaben im Bereich Erdwissenschaften in der Mittelstufe.
Zunächst wird der Hintergrund erläutert: Formative Assessments spielen eine wichtige Rolle, um den Lernfortschritt der Schüler zu erfassen und ihnen rechtzeitig Feedback zu geben. Allerdings ist der manuelle Bewertungsprozess zeitaufwendig und fehleranfällig. LLMs bieten Möglichkeiten, die Bewertung kurzer Antworten zu automatisieren und Feedback zu generieren, um Schüler und Lehrer zu unterstützen.
Der Ansatz kombiniert wenige Beispiele (few-shot learning) und aktives Lernen mit Ketten-von-Gedanken-Begründungen (chain-of-thought reasoning), um LLMs wie GPT-4 zur Bewertung und Erklärung von Schülerantworten zu befähigen. Zunächst werden Beispiele mit Bewertungen und Begründungen in den Prompt eingefügt, um das Modell auszurichten. Dann wird aktives Lernen eingesetzt, um wiederkehrende Muster in den Fehleinschätzungen des Modells zu identifizieren und diese durch weitere Beispiele mit Ketten-von-Gedanken-Begründungen zu korrigieren.
Die Ergebnisse zeigen, dass der Ansatz in vielen Fällen eine hohe Übereinstimmung mit menschlichen Bewertern erreicht. Das Modell kann nicht nur Punktzahlen vergeben, sondern auch relevante Begründungen liefern, die Schülern und Lehrern wertvolles Feedback geben können. Die Analyse der Schwächen des Modells identifiziert auch Möglichkeiten zur Verbesserung, z.B. durch zusätzliche Mechanismen, um Modellfehler gezielter anzugehen, sowie die Nutzung des Modells zur Verbesserung von Bewertungsrubrics.
Insgesamt demonstriert der Artikel, wie LLMs in Kombination mit menschlicher Interaktion erfolgreich für die automatische Bewertung und Erklärung von Schülerantworten in Formative Assessments in den Naturwissenschaften eingesetzt werden können.
Stats
"Die Größe der Pfeile in der Abbildung repräsentiert die Menge des Wassers."
"Die Abbildung zeigt gut, dass Wasser vom Himmel in Form von Regen kommt, ein Teil davon absorbiert wird und ein Teil als Oberflächenabfluss abfließt."
"Die Größe des Abfluss-Pfeils kann nicht größer sein als die des Regen-Pfeils, da dies gegen das Prinzip der Erhaltung der Masse verstoßen würde."
Quotes
"Formative Assessments spielen eine wichtige Rolle, um den Lernfortschritt der Schüler zu erfassen und ihnen rechtzeitig Feedback zu geben."
"LLMs bieten Möglichkeiten, die Bewertung kurzer Antworten zu automatisieren und Feedback zu generieren, um Schüler und Lehrer zu unterstützen."
"Durch die Kombination von wenigen Beispielen und aktivem Lernen mit Ketten-von-Gedanken-Begründungen können LLMs erfolgreich Antworten bewerten und aussagekräftige Erklärungen liefern."