Core Concepts
LLM을 활용하여 개발자와 테스터의 다양한 관점을 통합하여 코드 리뷰 과정에서 취약점 존재 및 분류에 대한 합의를 도출하는 접근법
Abstract
이 논문은 LLM(Large Language Model)을 활용하여 취약점 탐지 성능을 향상시키는 접근법인 MuCoLD(Multi-role Consensus through LLMs Discussions)를 소개한다.
초기화 단계에서 테스터가 코드 세그먼트를 분석하여 취약점 존재 여부에 대한 초기 판단을 내린다.
토론 단계에서는 테스터와 개발자가 서로의 관점을 교환하며 취약점 존재 및 분류에 대한 합의를 도출하는 과정이 반복된다.
결론 단계에서는 최종적인 판단 결과를 도출한다.
실험 결과, MuCoLD 접근법은 단일 역할 기반 접근법에 비해 정확도 4.73%, 재현율 58.9%, F1 점수 28.1% 향상된 것으로 나타났다. 특히 취약점 데이터 비율이 높은 경우 성능 향상이 두드러졌다. 이는 다양한 관점의 토론을 통해 잠재적인 취약점을 더 폭넓게 탐색할 수 있기 때문으로 분석된다.
향후 연구에서는 프로그램 관리자 등 다양한 역할을 추가하고, 다중 분류 및 취약점 수정 기능으로 확장할 계획이다.
Stats
취약점 데이터 그룹1의 경우 단일 역할 접근법 대비 MuCoLD 접근법에서 정확도가 4.73% 향상되었고, 재현율은 58.9% 증가했으며, F1 점수는 28.1% 상승했다.