Der Artikel stellt eine Methode zur Erstellung eines neuartigen Datensatzes namens Conifer vor, der darauf abzielt, die Fähigkeit großer Sprachmodelle (LLMs) zur Befolgung komplexer Anweisungen mit Einschränkungen zu verbessern.
Der Conifer-Datensatz wird mithilfe von GPT-4 generiert, indem eine Reihe von Prozessen zur Umformulierung von Abfragen, Generierung von Einschränkungen, Rekombination und Filterung durchgeführt werden. Darüber hinaus wird ein progressives Lernschema eingeführt, das eine einfache-zu-schwierige Progression und das Lernen aus Prozessrückmeldungen umfasst, um LLMs dabei zu unterstützen, komplexe Anweisungen effektiv zu interpretieren und zu befolgen.
Die Experimente zeigen, dass Modelle, die mit dem Conifer-Datensatz trainiert wurden, eine bemerkenswerte Verbesserung ihrer Fähigkeiten zur Befolgung komplexer, eingeschränkter Anweisungen aufweisen. Insbesondere übertrifft das Conifer-7B-DPO-Modell die Leistung der besten Open-Source-Modelle in dieser Hinsicht.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Haoran Sun,L... klokken arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02823.pdfDypere Spørsmål