이 논문은 LLM(Large Language Model)을 활용하여 취약점 탐지 성능을 향상시키는 접근법인 MuCoLD(Multi-role Consensus through LLMs Discussions)를 소개한다.
초기화 단계에서 테스터가 코드 세그먼트를 분석하여 취약점 존재 여부에 대한 초기 판단을 내린다.
토론 단계에서는 테스터와 개발자가 서로의 관점을 교환하며 취약점 존재 및 분류에 대한 합의를 도출하는 과정이 반복된다.
결론 단계에서는 최종적인 판단 결과를 도출한다.
실험 결과, MuCoLD 접근법은 단일 역할 기반 접근법에 비해 정확도 4.73%, 재현율 58.9%, F1 점수 28.1% 향상된 것으로 나타났다. 특히 취약점 데이터 비율이 높은 경우 성능 향상이 두드러졌다. 이는 다양한 관점의 토론을 통해 잠재적인 취약점을 더 폭넓게 탐색할 수 있기 때문으로 분석된다.
향후 연구에서는 프로그램 관리자 등 다양한 역할을 추가하고, 다중 분류 및 취약점 수정 기능으로 확장할 계획이다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問