Diese Arbeit präsentiert eine umfassende Übersicht über Methoden zur Datenauswahl für das Training von Sprachmodellen. Sie beginnt mit der Motivation und dem konzeptionellen Rahmen für Datenauswahl, gefolgt von einer Taxonomie verschiedener Ansätze.
Der Hauptteil konzentriert sich auf Datenauswahl für das Vortraining von Sprachmodellen. Hier werden verschiedene Methoden beschrieben, wie Sprachfilterung, heuristische Ansätze, Datenqualität, domänenspezifische Auswahl, Deduplizierung, Filterung von schädlichen Inhalten und spezialisierte Auswahl für mehrsprachige Modelle. Zusätzlich werden Methoden für andere Trainingsphasen wie Instruktionsanpassung, Ausrichtung, kontextbasiertes Lernen und aufgabenspezifisches Feintuning behandelt.
Die Arbeit diskutiert auch Herausforderungen und Überlegungen bei der Anwendung von Datenauswahl, wie Testset-Dekontaminierung, Abwägungen zwischen Memorisierung und Generalisierung, Werkzeuge für die Datenauswahl und allgemeine Anwendungsüberlegungen. Abschließend werden vielversprechende zukünftige Forschungsrichtungen identifiziert, wie die Beschleunigung der Forschung zur Datenauswahl, ein besseres Verständnis der Eigenschaften der Zielverteilung und eine Verschiebung der Rechenzeit von Modelltraining zu Datenverarbeitung.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문