Der Artikel beschreibt einen Ansatz zur Verbesserung des mathematischen Schlussfolgerns mit Großsprachmodellen (LLMs). LLMs haben oft Schwierigkeiten, während mehrerer Schlussfolgerungsschritte Genauigkeit beizubehalten, da Fehler in früheren Schritten sich auf nachfolgende Schritte und das Endergebnis auswirken können.
Um die Fehlerausbreitung zu reduzieren, wird eine geführte Decodierung eingesetzt, um die LM-Decodierung schrittweise zu lenken. Die Autoren argumentieren, dass es bei der geführten Decodierung vorteilhafter sein kann, das Potenzial eines unvollständigen Schlussfolgerungspfads zu bewerten, anstatt nur die Richtigkeit pro Schritt sicherzustellen, da der erstere Ansatz zu einer korrekten Endlösung führt.
Dies verwandelt die Aufgabe in ein Wertschätzungsproblem in der Planung. Inspiriert von der Erkenntnis, dass die Ergebnissupervision für die geführte Decodierung im Grunde als Wertmodell fungiert, schlagen die Autoren das Outcome-supervised Value Model (OVM) vor. OVM verwendet die Ergebnissupervision zum Training eines Wertmodells, das Schritte priorisiert, die zu genauen Schlussfolgerungen führen.
Darüber hinaus eliminiert OVM die Notwendigkeit arbeitsintensiver Annotationen der Richtigkeit auf Schrittniveau, wodurch die Skalierbarkeit erheblich verbessert wird. Die Experimente auf zwei Datensätzen für mehrstufiges mathematisches Schlussfolgern, GSM8K und Game of 24, zeigen die überlegene Leistung des OVM-Modells.
To Another Language
from source content
arxiv.org
Djupare frågor