Der Artikel stellt eine Methode zur Erstellung eines neuartigen Datensatzes namens Conifer vor, der darauf abzielt, die Fähigkeit großer Sprachmodelle (LLMs) zur Befolgung komplexer Anweisungen mit Einschränkungen zu verbessern.
Der Conifer-Datensatz wird mithilfe von GPT-4 generiert, indem eine Reihe von Prozessen zur Umformulierung von Abfragen, Generierung von Einschränkungen, Rekombination und Filterung durchgeführt werden. Darüber hinaus wird ein progressives Lernschema eingeführt, das eine einfache-zu-schwierige Progression und das Lernen aus Prozessrückmeldungen umfasst, um LLMs dabei zu unterstützen, komplexe Anweisungen effektiv zu interpretieren und zu befolgen.
Die Experimente zeigen, dass Modelle, die mit dem Conifer-Datensatz trainiert wurden, eine bemerkenswerte Verbesserung ihrer Fähigkeiten zur Befolgung komplexer, eingeschränkter Anweisungen aufweisen. Insbesondere übertrifft das Conifer-7B-DPO-Modell die Leistung der besten Open-Source-Modelle in dieser Hinsicht.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Haoran Sun,L... kl. arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02823.pdfDybere Forespørgsler