Core Concepts
Die Auswahl geeigneter Trainingsdaten ist entscheidend für die Leistungsfähigkeit von Sprachmodellen. Diese Arbeit bietet einen umfassenden Überblick über verschiedene Methoden zur effizienten Datenauswahl für das Training von Sprachmodellen.
Abstract
Diese Arbeit präsentiert eine umfassende Übersicht über Methoden zur Datenauswahl für das Training von Sprachmodellen. Sie beginnt mit der Motivation und dem konzeptionellen Rahmen für Datenauswahl, gefolgt von einer Taxonomie verschiedener Ansätze.
Der Hauptteil konzentriert sich auf Datenauswahl für das Vortraining von Sprachmodellen. Hier werden verschiedene Methoden beschrieben, wie Sprachfilterung, heuristische Ansätze, Datenqualität, domänenspezifische Auswahl, Deduplizierung, Filterung von schädlichen Inhalten und spezialisierte Auswahl für mehrsprachige Modelle. Zusätzlich werden Methoden für andere Trainingsphasen wie Instruktionsanpassung, Ausrichtung, kontextbasiertes Lernen und aufgabenspezifisches Feintuning behandelt.
Die Arbeit diskutiert auch Herausforderungen und Überlegungen bei der Anwendung von Datenauswahl, wie Testset-Dekontaminierung, Abwägungen zwischen Memorisierung und Generalisierung, Werkzeuge für die Datenauswahl und allgemeine Anwendungsüberlegungen. Abschließend werden vielversprechende zukünftige Forschungsrichtungen identifiziert, wie die Beschleunigung der Forschung zur Datenauswahl, ein besseres Verständnis der Eigenschaften der Zielverteilung und eine Verschiebung der Rechenzeit von Modelltraining zu Datenverarbeitung.
Stats
Schätzungen zufolge gibt es etwa 250 Milliarden Webseiten, die etwa 11 Petabyte an Daten ausmachen, die seit 2008 gesammelt wurden.
Zusätzlich werden monatlich 3-5 Milliarden neue Webseiten erfasst.
Quotes
"Datenauswahl ist ein lang etablte Herausforderung des maschinellen Lernens, bei der das Ziel ist, aus einer Sammlung von Rohdaten einen Datensatz zu entwerfen, der in einem bestimmten Sinne optimal ist."
"Sprach-Vortrainingskorpora können Milliarden von Token umfassen, sodass ein häufiges Ziel der Datenauswahl beim Vortraining darin besteht, durch eine Reihe von Filtern erhebliche Datenmengen zu entfernen, um nur "hochwertige" Daten beizubehalten."