Die Studie untersucht zwei Forschungsfragen:
Zur Beantwortung der ersten Frage führen die Autoren eine sorgfältig konzipierte menschliche Bewertung durch, die zeigt, dass selbst GPT-3.5 weniger als 25% der Zeit faktische Ausgaben produziert. Dies unterstreicht die Bedeutung von Faktenprüfern, um den Fortschritt bei der Faktentreue zu messen und anzuregen.
Für die zweite Frage untersuchen die Autoren systematisch, wie Sprachmodelle als Faktenprüfer umfunktioniert werden können. Sie zeigen, dass Sprachmodelle, insbesondere wenn sie mit Retrievalkomponenten erweitert werden, stark mit menschlichen Urteilen korrelieren. Dabei übertrifft der am wenigsten faktische Generator FLAN-T511B sogar leistungsfähigere Modelle wie GPT3.5 und ChatGPT bei der Faktenprüfung.
Die Autoren analysieren auch die Abhängigkeit dieser Faktenprüfer von hochwertigen Belegen, ihre Robustheit und ihre Generalisierungsfähigkeit. Ihre Erkenntnisse können die Entwicklung vertrauenswürdiger Generierungsmodelle inspirieren.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések