Core Concepts
Dieser Artikel präsentiert Ansätze, die die Verfügbarkeit von Benutzer- und Artikelmerkmalen besser nutzen, um die Handhabung von Wörtern außerhalb des Vokabulars in Empfehlungssystemen zu verbessern, ohne die Leistung auf bekannten Werten zu beeinträchtigen.
Abstract
Der Artikel befasst sich mit dem Problem der Handhabung von Wörtern außerhalb des Vokabulars (Out-of-Vocabulary, OOV) in Empfehlungssystemen. OOV-Werte sind Kategoriewerte, die zum Trainingszeitpunkt nicht vorhanden sind, aber während der Inferenz auftauchen können. Dies ist besonders problematisch für faktorisierungsbasierte Modelle, die sich auf die Codierung nur der zum Trainingszeitpunkt beobachteten Benutzer/Artikel verlassen.
Der Artikel präsentiert verschiedene OOV-Einbettungsmethoden, die sich in Bezug auf Komplexität, Verwendung von Merkmalen und Anzahl der potenziell eindeutigen Einbettungen unterscheiden. Dazu gehören einfache heuristische Methoden wie die Verwendung des Nullvektors oder des Mittelwerts sowie lernbasierte Methoden wie zufällige Bucket-Zuordnung, Deep Hash Embedding und Locality-Sensitive Hashing (LSH)-basierte Ansätze.
Die Autoren evaluieren diese Methoden auf 5 Modellen über 4 Datensätze, darunter auch einen proprietären Produktionsdatensatz eines großen sozialen Netzwerks. Die Ergebnisse zeigen, dass die LSH-basierten Methoden, die Merkmalsähnlichkeit nutzen, in den meisten Modell-Datensatz-Kombinationen konsistent besser abschneiden als die Alternativen, wobei die beste Methode eine durchschnittliche Verbesserung von 3,74% gegenüber der branchenüblichen Baseline-Methode der zufälligen Bucket-Zuordnung zeigt.
Die Autoren stellen ihren Evaluierungsrahmen, eine wichtige Erweiterung der beliebten RecBole-Bibliothek, öffentlich zur Verfügung, um die zukünftige Forschung in diesem Bereich zu fördern.
Stats
Die Autoren berichten, dass die besten LSH-basierten Methoden eine durchschnittliche Verbesserung von 3,74% gegenüber der branchenüblichen Baseline-Methode der zufälligen Bucket-Zuordnung zeigen.
Quotes
Keine relevanten Zitate gefunden.