Core Concepts
LLM은 코드 보안 취약점 식별과 기능성 검증에서 우수한 성능을 보여줌
Abstract
이 연구는 LLM(Large Language Model)이 코드 리뷰 프로세스를 지원할 수 있는지 조사합니다. 특히 두 가지 핵심 작업에 초점을 맞추었습니다:
보안 취약점 식별
소프트웨어 기능성 검증
연구진은 오픈소스 및 독점 LLM 모델을 사용하여 실험을 수행했습니다. 실험 결과, 독점 모델이 오픈소스 모델에 비해 월등한 성능을 보였습니다.
보안 취약점 식별의 경우, 최고 성능 모델인 Text-davinci-003이 95.6%의 정확도와 37.9%의 F1 점수를 달성했습니다.
기능성 검증의 경우, GPT-4 모델이 88.7%의 정확도와 88.2%의 F1 점수를 달성했습니다.
또한 GPT-4 모델은 생성한 취약점 설명의 36.7%가 실제 취약점과 연관될 수 있었습니다.
이 연구 결과는 LLM이 코드 리뷰 프로세스를 자동화하는 데 활용될 수 있음을 시사합니다. 향후 연구에서는 더 큰 규모의 데이터셋과 모델을 활용하여 이 접근법을 확장할 수 있을 것입니다.
Stats
보안 취약점이 있는 코드 조각의 경우 Text-davinci-003 모델이 95.6%의 정확도와 37.9%의 F1 점수를 달성했습니다.
기능성 검증의 경우 GPT-4 모델이 88.7%의 정확도와 88.2%의 F1 점수를 달성했습니다.
GPT-4 모델은 생성한 취약점 설명의 36.7%가 실제 취약점과 연관될 수 있었습니다.