In diesem technischen Bericht wird TeleChat, eine Sammlung großer Sprachmodelle (LLMs) mit 3 Milliarden, 7 Milliarden und 12 Milliarden Parametern, vorgestellt. TeleChat umfasst sowohl vortrainierte Sprachmodelle als auch feinabgestimmte Chat-Modelle, die auf menschliche Präferenzen ausgerichtet sind.
TeleChat wurde zunächst auf einem umfangreichen Korpus mit einer vielfältigen Sammlung von Texten aus den englischen und chinesischen Sprachen, einschließlich Billionen von Token, vortrainiert. Anschließend wurde das Modell durch Feinabstimmung auf die Ausrichtung mit menschlichen Präferenzen ausgerichtet, wobei eine detaillierte Methodik beschrieben wird.
Die Leistung von TeleChat wird bei verschiedenen Aufgaben wie Sprachverständnis, Mathematik, Reasoning, Codegenerierung und wissensbasierter Fragebeantwortung evaluiert. Die Ergebnisse zeigen, dass TeleChat eine vergleichbare Leistung wie andere Open-Source-Modelle ähnlicher Größe über eine breite Palette öffentlicher Benchmarks hinweg erzielt.
Um zukünftige Forschung und Anwendungen, die LLMs nutzen, zu unterstützen, werden die feinabgestimmten Modellchecks der 7B- und 12B-Variante von TeleChat zusammen mit Code und einem Teil unserer Vortrainingsdaten der Öffentlichkeit zur Verfügung gestellt.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhongjiang H... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2401.03804.pdfDeeper Inquiries