핵심 개념
대규모 언어 모델을 사용하여 JUnit 테스트 생성의 효과적인 방법과 한계를 조사함
초록
코드 생성 모델이 단위 테스트 생성에 미치는 영향을 연구
Codex, GPT-3.5-Turbo, StarCoder 모델을 사용하여 단위 테스트 생성 능력 평가
컴파일률, 테스트 정확성, 테스트 커버리지, 테스트 품질 평가
테스트 냄새 발생, 컴파일 오류 원인, 테스트 커버리지 결과 등 분석
통계
Codex 모델은 HumanEval 데이터 세트에서 37.5%의 컴파일률을 달성
StarCoder 모델은 HumanEval 데이터 세트에서 70%의 컴파일률을 달성
GPT-3.5-Turbo 모델은 SF110 데이터 세트에서 9.7%의 컴파일률을 달성
인용구
"LLM을 사용하여 JUnit 테스트를 생성하는 능력을 조사하고 테스트의 컴파일률, 정확성, 커버리지, 품질을 평가했습니다." - Mohammed Latif Siddiq