Core Concepts
Durch die Dekomposition einer globalen expliziten Bewertung unter Verwendung lokaler impliziter multimodaler Signale kann ein Dialogagent an menschliche Präferenzen angepasst werden.
Abstract
Der Artikel beschreibt einen Ansatz, um einen auf einem großen Sprachmodell (LLM) basierenden Dialogagenten basierend auf globalen (d.h. dialogebenen) Belohnungen auszurichten, während auch natürlich auftretende multimodale Signale berücksichtigt werden. Der Ansatz, genannt GELI, lernt ein lokales, auf Gesprächsebene basierendes Belohnungsmodell, indem die vom Menschen bereitgestellte globale explizite (GE) Sitzungsbewertung zerlegt wird, wobei lokale implizite (LI) multimodale Belohnungssignale verwendet werden, um den Belohnungsdekompositionsschritt crossmodal zu formen. Dieses zerlegte Belohnungsmodell wird dann als Teil der Standard-RLHF-Pipeline verwendet, um einen auf einem LLM basierenden Dialogagenten zu verbessern. Die Autoren führen quantitative und qualitative Benutzerstudien durch, um die Leistung ihres GELI-Ansatzes zu bewerten, und stellen fest, dass er im Vergleich zu Basisverfahren konsistente Verbesserungen bei verschiedenen Gesprächsmetriken zeigt.
Stats
Die durchschnittliche Länge der Gespräche im CANDOR-Datensatz beträgt 31,3 Minuten.
Der CANDOR-Datensatz umfasst 1.656 Gespräche, 7 Millionen Wörter und 850 Stunden.
Der CANDOR-Datensatz enthält auch Videodaten.
Quotes
"Wir beschreiben einen Ansatz zur Ausrichtung eines auf einem LLM basierenden Dialogagenten basierend auf globalen (d.h. dialogebenen) Belohnungen, während auch natürlich auftretende multimodale Signale berücksichtigt werden."
"GELI lernt ein lokales, auf Gesprächsebene basierendes Belohnungsmodell, indem die vom Menschen bereitgestellte globale explizite (GE) Sitzungsbewertung zerlegt wird, wobei lokale implizite (LI) multimodale Belohnungssignale verwendet werden, um den Belohnungsdekompositionsschritt crossmodal zu formen."