Core Concepts
Große Sprachmodelle können die Zufälligkeit von Empfehlungen bis zu einem gewissen Grad beurteilen, aber ihre Bewertungen stimmen nicht vollständig mit menschlichen Einschätzungen überein.
Abstract
Die Studie untersucht, inwieweit die Bewertung der Zufälligkeit (Serendipität) von Empfehlungen durch Große Sprachmodelle (LLMs) mit der menschlichen Einschätzung übereinstimmt und ob die LLM-basierten Bewertungen die Leistung von Baseline-Methoden übertreffen können.
Die Kernpunkte sind:
Es wurde ein binäres Klassifikationsmodell entwickelt, um vorherzusagen, ob ein Benutzer eine empfohlene Sache als zufällig wahrnimmt.
Drei LLMs (GPT-3.5, GPT-4, Llama2-13B-Chat) wurden auf einem Benchmark-Datensatz mit menschlichen Bewertungen der Zufälligkeit getestet.
Die Ergebnisse zeigen, dass die LLM-basierten Bewertungen nicht sehr stark mit den menschlichen Einschätzungen übereinstimmen, aber teilweise besser als die Baseline-Methoden abschneiden.
Die Leistung der LLMs hängt stark davon ab, welche Informationen (Bewertungen, Genres) in den Prompts enthalten sind.
Die Interpretation der LLM-Ausgaben ist schwierig, da sie über die von menschlichen Erklärungsmodellen erfassten Faktoren hinausgehen.
Stats
Die durchschnittliche vorhergesagte Bewertung der empfohlenen Artikel durch SVD beträgt 3,98.
79,3% der Artikel hatten eine höhere Bewertung als der Durchschnitt der letzten 10 Artikel des Benutzers.
Quotes
"Serendipity-orientierte Empfehlungssysteme zielen darauf ab, die Überpezialisierung der Benutzerpräferenzen zu bekämpfen."
"Die Bewertung der Zufälligkeit einer Empfehlung kann aufgrund ihrer emotionalen Natur eine Herausforderung darstellen."
"LLMs können ein vielseitiges Framework für die Bewertung der Zufälligkeit in verschiedenen Empfehlungssystemen bieten und so die Abhängigkeit von Umfragen unter Menschen reduzieren."