Der XATU-Benchmark wurde entwickelt, um die Fähigkeiten von Sprachmodellen zur textbasierten Bearbeitung umfassend zu untersuchen. Er umfasst eine Vielzahl von Textbearbeitungsaufgaben aus verschiedenen Domänen, wie Grammatikkorrektur, Vereinfachung, Stilübertragung und Informationsaktualisierung.
Im Gegensatz zu bestehenden Datensätzen und Benchmarks zeichnet sich XATU durch die Verwendung feingranularer Anweisungen und zugehöriger Erklärungen aus. Dies soll die Interpretierbarkeit der Textbearbeitungsfähigkeiten von Sprachmodellen verbessern.
Der Benchmark wurde durch eine Kombination aus LLM-basierter Annotation und manueller Annotation erstellt. Dadurch wurden hochwertige Anweisungen und Erklärungen für jede Instanz generiert.
Die Experimente zeigen, dass die Verwendung feingranularer Anweisungen und Erklärungen die Leistung von Sprachmodellen bei Textbearbeitungsaufgaben deutlich verbessert. Insbesondere die Flan-UL2-Architektur erzielt die besten Ergebnisse über alle Aufgaben hinweg.
Insgesamt bietet der XATU-Benchmark eine umfassende Plattform zur Evaluierung und Weiterentwicklung von Textbearbeitungssystemen, die auf Erklärbarkeit und Genauigkeit ausgerichtet sind.
翻譯成其他語言
從原文內容
arxiv.org
深入探究