Nutzen Sie Ihr Wertmodell nicht weg! Generieren Sie bevorzugteren Text mit Value-Guided Monte-Carlo Tree Search-Decodierung
Der Schlüssel ist es, das Wertmodell, das als Nebenprodukt des PPO-Trainings zum Bewerten von Teilausgabesequenzen entsteht, nicht zu verwerfen, sondern es stattdessen in Kombination mit dem Strategienetzwerk während der Inferenz-Generierung zu nutzen.