Outcome-supervised Value Models für die Planung beim mathematischen Schlussfolgern
Outcome-supervised Value Models (OVM) verwenden Ergebnissupervision, um ein Wertmodell zu trainieren, das Schritte priorisiert, die zu korrekten Schlussfolgerungen führen. OVM eliminiert die Notwendigkeit arbeitsintensiver Annotationen der Richtigkeit auf Schrittniveau und verbessert so die Skalierbarkeit erheblich.