Core Concepts
Verschiedene Formate von Rationales (Erklärungen), die von Frage-Antwort-Modellen generiert werden, beeinflussen, wie leicht es für Nutzer ist, Feedback zu geben und wie gut Modelle dieses Feedback umsetzen können. Bestimmte Rationale-Formate können auch das Verständnis und Vertrauen der Nutzer in die Modellausgaben verbessern.
Abstract
Die Studie untersucht, wie Rationale-Formate, die von Frage-Antwort-Modellen generiert werden, die Fähigkeit der Nutzer beeinflussen, Feedback zu geben, und wie gut Modelle dieses Feedback umsetzen können. Außerdem wird untersucht, wie verschiedene Rationale-Formate das Verständnis und Vertrauen der Nutzer in die Modellausgaben beeinflussen.
Es werden fünf verschiedene Rationale-Formate betrachtet, die sich in Attributen wie Zuschreibung, Tiefe der Begründung, sequenzielle Begründung und Annotationen unterscheiden. In einer ersten Studie wird untersucht, wie leicht es für Nutzer ist, Feedback für die verschiedenen Rationale-Formate zu geben und wie effektiv dieses Feedback ist, um die Rationale zu verbessern und die Antwortgenauigkeit zu erhöhen.
In einer zweiten Studie werden Nutzerurteile zur Verständlichkeit und Glaubwürdigkeit der verschiedenen Rationale-Formate erhoben. Zusätzlich werden die Nutzer nach der Wichtigkeit verschiedener Eigenschaften der Rationale befragt.
Die Ergebnisse zeigen, dass Rationale-Formate, die Attributionen und eine ausreichende Tiefe der Begründung aufweisen, am leichtesten zu verstehen und am vertrauenswürdigsten sind. Unter den betrachteten Eigenschaften werden Attributionen und Tiefe der Begründung von den Nutzern als am wichtigsten eingestuft.
Stats
"Jede Hand hat 27 Knochen, und jeder Fuß hat 26, was insgesamt 54 Knochen in den Händen und 52 Knochen in den Füßen ergibt."
Quotes
"Eliciting feedback from end users of NLP mod-
els can be beneficial for improving models."
"Rationales (or explanations) generated by QA models to support
their answers."
"Rationale formats significantly affect how easy it is (1) for users to give feedback for rationales,
and (2) for models to subsequently execute this
feedback."