Core Concepts
Bereitstellung eines umfassenden Ressourcenpakets für die Entwicklung von Indic LLMs zur Überbrückung von Datenlücken.
Abstract
Einführung in die Bedeutung von Daten für Sprachmodelle
Schaffung von Ressourcen für Indic LLMs mit 22 Sprachen und 251B Tokens
Methoden zur Erstellung von Trainingsdaten und Feinabstimmung
Bedeutung von Datenqualität und -quantität
Veröffentlichung von Ressourcen für die Forschung und Entwicklung von Indic LLMs
Stats
Unsere Arbeit zielt darauf ab, eine umfassende Suite von Ressourcen speziell für die Entwicklung von Indic LLMs bereitzustellen, die 22 Sprachen abdeckt, insgesamt 251B Tokens und 74,8M Anweisungs-Antwort-Paare enthält.
Unser Ansatz kombiniert sorgfältig kuratierte manuell verifizierte Daten, wertvolle, aber nicht verifizierte Daten und synthetische Daten.
Wir haben eine saubere Open-Source-Pipeline für die Kuratierung von Vorabtrainingsdaten aus verschiedenen Quellen entwickelt, einschließlich Websites, PDFs und Videos.
Quotes
"Unsere Arbeit zielt darauf ab, die Datenlücke für Indic LLMs zu überbrücken und eine umfassende Suite von Ressourcen bereitzustellen."