Die Studie untersucht die Fähigkeit großer Sprachmodelle zum Verständnis von Dialogen. Dafür werden zwei Benchmarks entwickelt:
DIAC-Sum: Die Autoren lassen 5 populäre Sprachmodelle Dialogzusammenfassungen erstellen und bewerten diese manuell auf faktische Konsistenz. Die Ergebnisse zeigen, dass im Durchschnitt 26,8% der Zusammenfassungen inkonsistent sind. Selbst ChatGPT, das stärkste Modell, hat in 16% der Fälle Fehler.
DIAC-FactQA: Aus den inkonsistenten Zusammenfassungen werden Fakten-Fragen abgeleitet, um das Dialogverständnis der Modelle genauer zu testen. Hier liegt die durchschnittliche Fehlerquote bei 36,1%. Selbst für ChatGPT und GPT4 beträgt sie noch 26,1% bzw. 18,5%.
Die Analyse zeigt, dass vor allem das Verständnis von Subjekten und Objekten in Dialogen eine große Herausforderung für die Modelle darstellt. Um die Dialogkompetenz zu verbessern, schlagen die Autoren ein Finetuning-Verfahren mit selbst erstellten Multi-Task-Daten vor, das zu einer relativen Fehlerreduktion von 11% führt.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shuaijie She... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2311.07194.pdfDeeper Inquiries