この研究は、4つの人気のあるLLMモデル(GPT 3.5-turbo、GPT 4、Mistral 7B、Mixtral 8x7B)と5つのプロンプトエンジニアリング手法を評価しています。216,300件のテストケースを690のJavaクラスに対して生成し、正確性、可読性、カバレッジ、テストの臭いの検出の観点から評価しています。
LLMは試験ケース生成において一定の可能性を示していますが、特に一般的なテストの臭いの削減においては改善の余地があります。この研究は、LLMによって生成されたテストと従来の手法であるEvoSuiteによって生成されたテストの長所短所を明らかにし、LLMを用いたテスト自動化に関する今後の研究の道筋を示しています。
A otro idioma
del contenido fuente
arxiv.org
Consultas más profundas