Outcome-supervised Value Models (OVM) verwenden Ergebnissupervision, um ein Wertmodell zu trainieren, das Schritte priorisiert, die zu korrekten Schlussfolgerungen führen. OVM eliminiert die Notwendigkeit arbeitsintensiver Annotationen der Richtigkeit auf Schrittniveau und verbessert so die Skalierbarkeit erheblich.
Die Auswahl einflussreicher Daten ist ein Schlüsselfaktor für die Leistung und Effizienz von Großsprachmodellen beim mathematischen Schlussfolgern. Die Autoren schlagen eine qualitätsbewusste und diverse Auswahlstrategie (QaDS) vor, die der Überlegenheit anderer Strategien auf mathematischen Reasoning-Aufgaben überlegen ist. Darüber hinaus erforschen die Autoren die optimale Zusammensetzung einflussreicher Daten für mathematisches Schlussfolgern und definieren OpenMathMix, eine einflussreiche Datenmischung mit Open-Source-Daten, die mit QaDS ausgewählt wurden.
MATHSENSEI ist ein Tool-unterstütztes Großsprachmodell, das durch den Einsatz von externen Tools wie Bing-Websuche, Python-Ausführung und symbolische Gleichungslösung die Fähigkeiten von Großsprachmodellen zum mathematischen Schlussfolgern verbessert.