Modelle zeigen eine Denklücke bei der Lösung von Problemen, die über statische Benchmarks hinausgeht.