Główne pojęcia
Durch den Einsatz von Codeähnlichkeitsmaßen und Algorithmen zur Zuordnung von Aufgaben zu Bewertern kann die Genauigkeit der manuellen Bewertung von Programmieraufgaben deutlich verbessert werden.
Streszczenie
Die Studie untersucht die Inkonsistenzen bei der manuellen Bewertung von Programmieraufgaben in einem einführenden Informatikkurs. Die Autoren zeigen, dass Bewerter deutlich genauere Bewertungen abgeben, wenn sie zuvor ähnliche Lösungen bewertet haben. Basierend auf dieser Erkenntnis entwickeln sie drei Algorithmen, die Aufgaben so den Bewertern zuordnen und anordnen, dass die Ähnlichkeit zwischen aufeinanderfolgenden Lösungen maximiert wird. In Simulationen zeigen die Autoren, dass diese Algorithmen die Bewertungsgenauigkeit im Vergleich zum derzeitigen Standard der zufälligen Zuordnung deutlich verbessern können. Die Studie liefert wichtige Erkenntnisse, um die Fairness und Qualität der Leistungsbewertung in Programmieraufgaben zu erhöhen.
Statystyki
Die durchschnittliche Abweichung der Bewertungen der Prüfer von der korrekten Bewertung beträgt 7,5 Prozentpunkte.
Der Bestimmtheitsmaß R² der linearen Regression zwischen Ähnlichkeit vorheriger Lösungen und Bewertungsgenauigkeit beträgt 0,605.
Der Cluster-Pfad-Algorithmus reduziert den durchschnittlichen Bewertungsfehler auf 2,7%, was eine signifikante Verbesserung gegenüber dem Zufallsalgorithmus (10,2% Fehler) darstellt.
Cytaty
"Graders score assignments more accurately when they have recently seen a submission similar to the current submission they are grading."
"Implementing a path ordering on a clustered assignment of graders to submissions yields the lowest mean error of 2.7%."