Die Studie präsentiert eine automatisierte Datenkurationspipeline namens CLEAR, die die Leistung von Sprachmodellen bei der Feinabstimmung auf instruktionsbasierten Datensätzen verbessern kann.
Der erste Schritt, Auto-Filter, entfernt Datenpunkte mit niedriger Konfidenz aus dem Trainingsdatensatz, basierend auf Schätzungen der Antwortqualität durch den Sprachmodell-Konfidenzschätzer BSDetector. Dieser Schritt führt bereits zu deutlichen Leistungssteigerungen ohne zusätzliche Feinabstimmungsberechnungen.
Der zweite Schritt, Auto-Correct, nutzt das feinabgestimmte Sprachmodell, um bestimmte Antworten im Originaldatensatz zu korrigieren, bei denen das Modell eine höhere Konfidenz als die Originaldaten aufweist. Eine erneute Feinabstimmung des Modells auf diesem korrigierten Datensatz führt zu weiteren Leistungssteigerungen.
Die Experimente zeigen, dass diese datenzentrische Herangehensweise die Leistung von Sprachmodellen wie GPT-3.5 und Llama-2 über verschiedene Datensätze und Feinabstimmungsverfahren hinweg konsistent verbessert, ohne dass leistungsfähigere Sprachmodelle wie GPT-4 in den Prozess einbezogen werden müssen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문