핵심 개념
Eine effiziente Methode zur Analyse und Kombination von Feinabstimmungsdaten für Großsprachmodelle, die eine hohe Qualität und Diversität der Daten gewährleistet.
초록
In diesem Bericht wird eine Lösung für die BetterMixture-Herausforderung vorgestellt, die den dritten Platz im Wettbewerb belegte. Die Lösung umfasst folgende Schritte:
-
Datendeduplizierung: Durch exakte Übereinstimmung der MD5-Prüfsummen wurde die Anzahl der Samples von 3,4 Millionen auf 2,7 Millionen reduziert, ohne die Verteilung der Daten zu verändern.
-
Qualitätsfilterung auf niedriger Ebene: Textlängenfilterung und Sprachidentifikationsfilterung wurden angewendet, um Proben mit einer Textlänge zwischen 20 und 2000 Zeichen und einer Sprachidentifikationsbewertung über 0,2 beizubehalten.
-
Qualitätsfilterung auf hoher Ebene: Drei Methoden wurden eingeführt, um die Datenqualität weiter zu verbessern:
- LLM-Perplexitätsfilterung: Proben mit einer Perplexität zwischen 20 und 1000 wurden beibehalten.
- LLM-IFD-Filterung: Proben mit einem IFD-Wert zwischen 0,2 und 0,9 wurden ausgewählt.
- LLM-IFD-Vote-Filterung: Durch Verwendung mehrerer LLMs wurde die Genauigkeit der IFD-Bewertung erhöht.
-
Diversitätsauswahl: Basierend auf den IFD-Werten und unter Verwendung des k-center-greedy-Algorithmus wurden 60.000 Proben ausgewählt, um die Diversität der Daten zu maximieren und gleichzeitig die Beschränkung von 10 Millionen Trainingstoken einzuhalten.
Durch diese Methoden konnte eine Verbesserung der Leistung gegenüber dem Baseline-Modell erzielt werden.
통계
Die Textlänge der Proben liegt zwischen 20 und 2000 Zeichen.
Die Sprachidentifikationsbewertung der ausgewählten Proben liegt über 0,2.
Die Perplexität der ausgewählten Proben liegt zwischen 20 und 1000.
Der IFD-Wert der ausgewählten Proben liegt zwischen 0,2 und 0,9.
인용구
"Wir führten eine mehrstufige Analyse des Datensatzes durch: den Originaldatensatz, die Anwendung von Filtern auf niedriger und hoher Ebene, die IFD-basierte Auswahl und schließlich den endgültigen Datensatz."
"Um die Genauigkeit zu erhöhen, verwendeten wir eine feinabgestimmte Version des Baichuan2-7B-Base-Modells als IFD-Scorer."
"Um Qualität und Diversität zu optimieren, wandten wir den k-center-greedy-Algorithmus an, um die Auswahl der chinesischen Proben zu verfeinern und ihre Anzahl von 13.000 auf 9.000 zu reduzieren, ohne die Leistung zu beeinträchtigen."