Core Concepts
Große Sprachmodelle können JUnit-Tests generieren, weisen jedoch Mängel auf.
Abstract
Die Studie untersucht die Fähigkeit von Codex, GPT-3.5-Turbo und StarCoder, JUnit-Tests zu generieren, sowie den Einfluss verschiedener Kontextstile auf die Leistung. Es werden Kompilierungsraten, Testkorrektheit, Testabdeckung und Testfehler untersucht. Codex erzielte hohe Abdeckung für HumanEval, aber niedrige für EvoSuite SF110. Generierte Tests wiesen Testfehler wie Duplizierte Asserts und Leere Tests auf.
Struktur:
Einleitung
Hintergrund: Unit-Tests und Testfehler
Methodik: Untersuchung von RQ1 und RQ2
Ergebnisse RQ1: Kompilierungsraten, Testkorrektheit, Testabdeckung und Testfehler für HumanEval und SF110
Ergebnisse RQ2: Auswirkungen verschiedener Kontextelemente auf die Testgenerierung
Schlussfolgerungen und Diskussion
Stats
Die Codex-Modelle erzielten über 80% Abdeckung für HumanEval, aber weniger als 2% für EvoSuite SF110.
Generierte Tests litten unter Testfehlern wie Duplizierten Asserts und Leeren Tests.