Die Studie führt die erste großangelegte Bewertung der Treue und Inhaltsauswahl von durch Sprachmodelle generierten Zusammenfassungen fiktionaler Bücher durch. Die Ergebnisse zeigen, dass CLAUDE-3-OPUS die genauesten Zusammenfassungen liefert, während andere Modelle wie GPT-3.5-TURBO und MIXTRAL häufiger Fehler machen.
Diese Studie untersucht die Kohärenz von Buchzusammenfassungen, die von großen Sprachmodellen (LLMs) generiert werden, und entwickelt eine automatische Metrik namens BOOOOKSCORE, um die Qualität dieser Zusammenfassungen zu bewerten.