이 연구는 대규모 언어 모델(LLM)의 코드 취약점 탐지 성능을 비교 분석하였다. 최근 등장한 Llama, CodeLlama, Gemma, CodeGemma 모델과 기존의 BERT, RoBERTa, GPT-3 모델을 비교하였다.
연구 결과, CodeGemma 모델이 F1 점수 58%, 재현율 87%로 가장 우수한 성능을 보였다. 이를 통해 최신 LLM이 소프트웨어 보안 취약점 탐지에 효과적으로 활용될 수 있음을 확인하였다.
연구팀은 LLM의 일반적인 성능이 우수하더라도 특정 소프트웨어 공학 과제에 대한 적합성을 면밀히 평가해야 한다고 강조했다. 또한 LLM의 계산 자원 요구사항과 배포 고려사항을 균형있게 다루어야 한다고 제언했다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Shaznin Sult... a las arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.10490.pdfConsultas más profundas