Der Artikel stellt LLEMMA, ein großes Sprachmodell für Mathematik, vor. LLEMMA wurde durch fortgesetzte Vortrainierung des Code Llama-Modells auf Proof-Pile-2, einer Mischung aus wissenschaftlichen Artikeln, Webdaten mit mathematischen Inhalten und mathematischem Code, entwickelt.
LLEMMA übertrifft alle bekannten offenen Basismodelle sowie die unveröffentlichten Minerva-Modelle auf der MATH-Benchmark in Bezug auf mathematische Fähigkeiten. Darüber hinaus kann LLEMMA ohne weitere Feinabstimmung Werkzeugnutzung und formalen Theorembeweisen durchführen.
Die Autoren veröffentlichen alle Artefakte, einschließlich 7-Milliarden- und 34-Milliarden-Parameter-Modelle, Proof-Pile-2 und Code zur Replikation der Experimente.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Zhangir Azer... às arxiv.org 03-19-2024
https://arxiv.org/pdf/2310.10631.pdfPerguntas Mais Profundas