Ein kosteneffizientes Testbett für das Benchmarking von Reinforcement-Learning-Algorithmen in generativen Sprachmodellen: Das (N, K)-Puzzle
Das (N, K)-Puzzle ist ein generalisierter Testfall, der Sprachmodelle herausfordert, eine Zielzahl K mit N ganzen Zahlen zu erreichen, und dient als kostengünstiges und standardisiertes Testbett zur Bewertung und zum Vergleich von Reinforcement-Learning-Algorithmen.