Core Concepts
대규모 언어 모델을 활용하여 새로운 또는 알려지지 않은 자동 프로그램 수정 도구에서 생성된 패치의 정확성을 평가할 수 있다.
Abstract
이 연구에서는 LLM4PatchCorrect를 제안한다. LLM4PatchCorrect는 기존 자동 프로그램 수정 도구에서 생성된 레이블이 지정된 패치를 활용하여 새로운 또는 알려지지 않은 자동 프로그램 수정 도구에서 생성된 패치의 정확성을 평가한다.
LLM4PatchCorrect는 다음과 같은 주요 단계로 구성된다:
테스트 패치 준비: 새로운 자동 프로그램 수정 도구에서 생성된 패치를 준비한다.
유사한 패치 확보: 기존 자동 프로그램 수정 도구에서 생성된 레이블이 지정된 패치 중 테스트 패치와 유사한 패치를 검색한다.
기타 안내 정보 확보: 버그 설명, 실행 추적, 실패한 테스트 케이스, 테스트 커버리지 등의 정보를 확보한다.
대규모 언어 모델 추론: 테스트 패치와 확보한 안내 정보를 대규모 언어 모델에 입력하여 패치의 정확성을 예측한다.
실험 결과, LLM4PatchCorrect는 기존 최신 접근법에 비해 정확도, F1 점수, AUC 점수가 크게 향상되었다. 이를 통해 새로운 또는 알려지지 않은 자동 프로그램 수정 도구에서 생성된 패치의 정확성을 효과적으로 평가할 수 있음을 보여준다.
Stats
버그 설명: 이 버그는 [버그 설명]을 참조한다.
실행 추적: 버그가 있는 코드의 실행 추적은 다음과 같다: [실행 추적]
실패한 테스트 케이스: 원래 버그가 있는 코드는 일부 테스트 케이스를 통과하지 못했지만, 패치된 코드는 이를 통과할 수 있다. 그 실패한 테스트 케이스는 다음과 같다: [실패한 테스트 케이스]
테스트 커버리지: 이 패치는 모든 테스트 케이스를 통과할 수 있지만, 사용 가능한 테스트 케이스는 제한된 커버리지만 제공한다: [테스트 커버리지]