Core Concepts
Wir präsentieren eine neuartige End-to-End-Pipeline zur Generierung von persönlichkeitsbasierten synthetischen Dialogdaten, die speziell darauf ausgelegt ist, Antworten von großen Sprachmodellen durch Prompting zu erzielen.
Abstract
Die Studie präsentiert eine neuartige End-to-End-Pipeline zur Generierung von persönlichkeitsbasierten synthetischen Dialogdaten. Die Pipeline umfasst fünf Schritte: Persönlichkeitseinstellung, Profilauswahl, Dialoggenerierung, Filterung und Regeneration.
Mithilfe dieser Pipeline wurde der Persönlichkeitsbasierte Synthetische Dialogdatensatz (PSYDIAL) erstellt, der etwa 2.900 maschinell generierte Gespräche umfasst. Der Fokus liegt dabei auf der Dimension der Extraversion des Big-Five-Persönlichkeitsmodells.
Die Experimente zeigen, dass vortrainierte Modelle und solche, die mit einem Smalltalk-Datensatz feinabgestimmt wurden, Schwierigkeiten haben, Antworten zu generieren, die die Persönlichkeit widerspiegeln. Modelle, die mit PSYDIAL trainiert wurden, zeigen jedoch deutliche Verbesserungen.
Die Vielseitigkeit der Pipeline geht über Dialogaufgaben hinaus und bietet Potenzial für andere nicht-dialogbezogene Anwendungen. Diese Forschung ebnet den Weg für nuanciertere, persönlichkeitsgetriebene Conversational AI in Koreanisch und möglicherweise anderen Sprachen.
Stats
Die Dialoge bestehen im Durchschnitt aus 8 Gesprächsrunden und die Äußerungen haben eine Tokenlänge von etwa 33 Silben.
Quotes
Keine relevanten Zitate gefunden.