Belangrijkste concepten
Modelle zeigen eine Denklücke bei der Lösung von Problemen, die über statische Benchmarks hinausgeht.
Statistieken
Modelle zeigen eine Denklücke von 58,35% bis 80,31%.
Es wurden 41,2% des MATH-Benchmarks funktionalisiert.
Citaten
"Es gibt eine Diskrepanz zwischen den hohen Benchmark-Ergebnissen in der Denkleistung und der beobachteten unterdurchschnittlichen Denkleistung von State-of-the-Art-Modellen."