提供された研究コンテキストから、LLM(Large Language Models)を使用してJavaのような強力型言語向けに単体テストを生成することが可能かどうかについて考察します。研究ではCodex、GPT-3.5-Turbo、StarCoderの3つのモデルを使用してJUnit5テストを生成しました。結果からは、HumanEvalデータセットではCodexモデルが80%以上のカバレッジを達成した一方で、Evosuite SF110ベンチマークでは2%未満のカバレッジしか達成しなかったことが示されています。また、生成されたテストは重複アサートや空のテストなどの問題も抱えており、完全な自動化はまだ難しいという結果が得られました。
この研究から明らかなように、現時点ではLLMsをそのまま利用して強力型言語向けに完全な単体テスト自動生成を行うことは困難です。厳密なタイプチェックやコンパイルエラーへの対処が必要であり、さらなる改善や微調整が必要です。
0
Table of Content
大規模言語モデルを使用してJUnitテストを生成するための実証研究
Using Large Language Models to Generate JUnit Tests