核心概念
Durch die Einführung des Conifer-Datensatzes, eines neuartigen Datensatzes für Anweisungstuning, und eines progressiven Lernschemas können Sprachmodelle ihre Fähigkeit zur Befolgung komplexer Anweisungen mit Einschränkungen deutlich verbessern.
要約
Der Artikel stellt eine Methode zur Erstellung eines neuartigen Datensatzes namens Conifer vor, der darauf abzielt, die Fähigkeit großer Sprachmodelle (LLMs) zur Befolgung komplexer Anweisungen mit Einschränkungen zu verbessern.
Der Conifer-Datensatz wird mithilfe von GPT-4 generiert, indem eine Reihe von Prozessen zur Umformulierung von Abfragen, Generierung von Einschränkungen, Rekombination und Filterung durchgeführt werden. Darüber hinaus wird ein progressives Lernschema eingeführt, das eine einfache-zu-schwierige Progression und das Lernen aus Prozessrückmeldungen umfasst, um LLMs dabei zu unterstützen, komplexe Anweisungen effektiv zu interpretieren und zu befolgen.
Die Experimente zeigen, dass Modelle, die mit dem Conifer-Datensatz trainiert wurden, eine bemerkenswerte Verbesserung ihrer Fähigkeiten zur Befolgung komplexer, eingeschränkter Anweisungen aufweisen. Insbesondere übertrifft das Conifer-7B-DPO-Modell die Leistung der besten Open-Source-Modelle in dieser Hinsicht.
統計
Die Modelle, die mit dem Conifer-Datensatz trainiert wurden, zeigten eine Erfolgsquote von 41,0% bei der Befolgung von Anweisungen auf Schwierigkeitsstufe 5 des FollowBench-Benchmarks, was die Leistung des 72B-Modells Qwen-72B-Chat von 39,9% übertrifft.
Auf dem IFEval-Benchmark erreichte das Conifer-7B-DPO-Modell den Spitzenwert, was seine Überlegenheit bei der Befolgung komplexer Anweisungen belegt.
Auf dem InFoBench-Benchmark schloss das Conifer-7B-DPO-Modell den Leistungsunterschied zwischen 7B-Modellen und dem 70B-Modell LLaMA-2-70B-Chat deutlich.
引用
"Durch die Einführung des Conifer-Datensatzes, eines neuartigen Datensatzes für Anweisungstuning, und eines progressiven Lernschemas können Sprachmodelle ihre Fähigkeit zur Befolgung komplexer Anweisungen mit Einschränkungen deutlich verbessern."
"Modelle, die mit dem Conifer-Datensatz trainiert wurden, zeigten eine bemerkenswerte Verbesserung ihrer Fähigkeiten zur Befolgung komplexer, eingeschränkter Anweisungen."