Core Concepts
Dieser Artikel untersucht Retrieval-basierte Ansätze zur Personalisierung großer Sprachmodelle, die einen erheblichen Einfluss auf verschiedene Anwendungen und Domänen haben können. Es werden zwei Optimierungsalgorithmen entwickelt, die Feedback aus nachgelagerten personalisierten Generierungsaufgaben für die Retrieval-Optimierung einholen - einer basierend auf Reinforcement Learning und einer basierend auf Wissenstransfer vom Sprachmodell zum Retrieval-Modell. Außerdem wird ein Modell zur Auswahl des Retrieval-Modells vor und nach der Generierung eingeführt, das für jede LLM-Eingabe entscheidet, welches Retrieval-Modell verwendet werden soll.
Abstract
Dieser Artikel untersucht Retrieval-basierte Ansätze zur Personalisierung großer Sprachmodelle (LLMs). Es werden zwei Optimierungsalgorithmen entwickelt:
ROPG-RL: Ein Reinforcement-Learning-Ansatz, bei dem die Belohnungsfunktion anhand einer beliebigen Metrik für die personalisierte Generierung definiert wird. Ziel ist es, das Retrieval-Modell so zu optimieren, dass es Dokumente aus dem Benutzerprofil auswählt, die die Leistung des LLMs bei der personalisierten Textgenerierung verbessern.
ROPG-KD: Ein Ansatz basierend auf Wissenstransfer, bei dem das Retrieval-Modell so optimiert wird, dass es Dokumente mit höherer Ähnlichkeit zu den vom LLM als nützlich eingestuften Dokumenten höher bewertet.
Außerdem wird ein Modell zur Auswahl des Retrieval-Modells (RSPG-Pre und RSPG-Post) eingeführt, das für jede Eingabe entscheidet, welches Retrieval-Modell (z.B. BM25, Recency, Contriever, ROPG-RL, ROPG-KD) verwendet werden soll, um die personalisierte Textgenerierung zu verbessern.
Die Methoden werden auf dem LaMP-Benchmark evaluiert, der sieben verschiedene Personalisierungsaufgaben umfasst. Die Ergebnisse zeigen statistisch signifikante Verbesserungen in sechs von sieben Datensätzen im Vergleich zum Stand der Technik.
Stats
Die Leistung des nicht-personalisierten Sprachmodells (FlanT5-XXL) kann um 1,0% bis 33,8% verbessert werden, mit einem durchschnittlichen Verbesserung von 15,3%.
Quotes
Keine relevanten Zitate gefunden.