Core Concepts
Der Datensatz SYLLABUSQA enthält 5.078 offene Frage-Antwort-Paare, die auf 63 realen Kurssyllabus-Dokumenten basieren und eine Vielzahl von Frage- und Antworttypen abdecken. Der Datensatz dient als Benchmark für die Entwicklung und Evaluierung von automatisierten Frage-Antwort-Systemen, die Dozenten bei der Beantwortung logistischer Fragen von Studenten unterstützen können.
Abstract
Der SYLLABUSQA-Datensatz wurde entwickelt, um die Leistung von automatisierten Frage-Antwort-Systemen bei der Beantwortung von Fragen zu Kursinformationen und -logistik zu evaluieren. Der Datensatz enthält 63 reale Kurssyllabus-Dokumente aus 36 verschiedenen Studiengängen und 5.078 offene Frage-Antwort-Paare, die von Crowdworkern erstellt wurden.
Die Frage-Antwort-Paare decken eine Vielzahl von Fragetypen ab, darunter Ja/Nein-Fragen, Fragen mit einzelnen oder mehreren Fakten, Fragen, die Schlussfolgerungen erfordern, sowie Zusammenfassungsfragen und Fragen ohne ausreichende Informationen im Syllabus. Die Antworten wurden ebenfalls in verschiedenen Formaten erstellt, einschließlich direkter Zitate aus dem Syllabus, Zusammenfassungen und Begründungen.
Um die Faktentreue der Antworten zu bewerten, wurde eine neuartige Metrik namens Fact-QA entwickelt, die die Präzision und den Recall der in den Antworten enthaltenen Fakten im Vergleich zu den Referenzantworten misst.
Die Experimente zeigen, dass große Sprachmodelle wie LLaMA 2 und GPT-4 zwar bei traditionellen Textähnlichkeitsmetriken gut abschneiden, aber bei der Faktentreue der Antworten noch Verbesserungspotenzial haben. Insbesondere Fragen mit impliziten Antworten, die Schlussfolgerungen erfordern, stellen eine Herausforderung dar. Der Einsatz von Retrieval-Techniken und die Berücksichtigung von Fragetypen können die Leistung jedoch deutlich verbessern.
Insgesamt bietet der SYLLABUSQA-Datensatz eine wichtige Benchmark für die Entwicklung von automatisierten Lehr-Assistenz-Systemen, die Dozenten bei der Beantwortung logistischer Fragen von Studenten unterstützen können.
Stats
"Die Abschlussprüfung findet am 15. Dezember statt."
"Die Kursbeteiligung macht 10% der Gesamtnote aus."
"Für das Gruppenprojekt sind 20% der Gesamtnote vorgesehen."
Quotes
"Automatisierte Lehr-Assistenten und Chatbots haben großes Potenzial, um die Arbeitsbelastung von Dozenten zu reduzieren, insbesondere bei logistikbezogenen Frage-Antwort-Aufgaben, die für Studenten wichtig, aber für Dozenten repetitiv sind."
"Da viele logistikbezogene Fragen kritische Informationen wie den Termin einer Prüfung enthalten, ist es wichtig, die Faktentreue der Antworten zu bewerten."