Der Artikel stellt EVOEVAL, einen Satz von Programmsynthese-Benchmarks vor, die durch das Weiterentwickeln bestehender Probleme aus dem HUMANEVAL-Benchmark erstellt wurden. EVOEVAL umfasst 828 Probleme in 7 verschiedenen Datensätzen, die durch den Einsatz gezielter Transformationsprompts für LLMs generiert wurden.
Die Studie zeigt, dass die Leistung führender LLMs auf EVOEVAL im Durchschnitt um 39,4% schlechter ist als auf HUMANEVAL. Dieser Rückgang ist nicht einheitlich und reicht von 19,6% bis 47,7%, was zu drastischen Änderungen in den Ranglisten der Modelle führt. Dies deutet auf eine mögliche Überanpassung der LLMs an die bestehenden Benchmarks hin.
Darüber hinaus zeigt die Studie, dass instruktionsbasierte LLMs zwar gut bei selbstständigen Problemen abschneiden, aber Schwierigkeiten haben, wenn die Problembeschreibung subtil verändert oder Hilfsfunktionen verwendet werden müssen. Außerdem scheitern die aktuellen Spitzenmodelle daran, allgemeine Programmierfähigkeiten effektiv zu kombinieren, um komplexere Varianten zu lösen oder Teilprobleme aus zuvor gelösten schwierigen Problemen anzugehen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문