Core Concepts
Durch die Zerlegung einer globalen expliziten Bewertung unter Verwendung von lokalen impliziten multimodalen Signalen kann ein Dialogagent an die Präferenzen des Benutzers angepasst werden.
Abstract
Der Artikel beschreibt einen Ansatz, um einen auf einem Großen Sprachmodell (LLM) basierenden Dialogagenten basierend auf globalen (d.h. dialogebenen) Belohnungen auszurichten, während auch natürlich auftretende multimodale Signale berücksichtigt werden. Der Ansatz, der GELI genannt wird, lernt ein lokales, zeilenbasiertes Belohnungsmodell, indem die vom Menschen bereitgestellte globale explizite (GE) sitzungsbasierte Belohnung zerlegt wird, wobei lokale implizite (LI) multimodale Belohnungssignale verwendet werden, um den Belohnungszerlegungsschritt crossmodal zu formen. Dieses zerlegte Belohnungsmodell wird dann als Teil der Standard-RLHF-Pipeline verwendet, um einen auf einem LLM basierenden Dialogagenten zu verbessern. Die Autoren führen quantitative und qualitative Benutzerstudien durch, um die Leistung ihres GELI-Ansatzes zu bewerten, und stellen fest, dass er im Vergleich zu Basisverfahren konsistente Verbesserungen bei verschiedenen Gesprächsmetriken zeigt.
Stats
Die durchschnittliche Länge der Gespräche im CANDOR-Datensatz beträgt 31,3 Minuten.
Der CANDOR-Datensatz umfasst 1.656 Gespräche, 7 Millionen Wörter und 850 Stunden.
Der globale explizite Belohnungswert gibt an, wie positiv sich der Benutzer am Ende des Gesprächs gefühlt hat.
Quotes
"Wir beschreiben einen Ansatz zur Ausrichtung eines auf einem LLM basierenden Dialogagenten basierend auf globalen (d.h. dialogebenen) Belohnungen, während auch natürlich auftretende multimodale Signale berücksichtigt werden."
"Unser Ansatz (GELI genannt) lernt ein lokales, zeilenbasiertes Belohnungsmodell, indem die vom Menschen bereitgestellte globale explizite (GE) sitzungsbasierte Belohnung zerlegt wird, wobei lokale implizite (LI) multimodale Belohnungssignale verwendet werden, um den Belohnungszerlegungsschritt crossmodal zu formen."