Ein Framework zur Erstellung skalierbarer und anpassbarer Ausführungsbasierter Benchmarks für Codegeneration, das nur minimale menschliche Anleitung erfordert.