이 연구는 대규모 언어 모델(LLM)의 코드 취약점 탐지 성능을 비교 분석하였다. 최근 등장한 Llama, CodeLlama, Gemma, CodeGemma 모델과 기존의 BERT, RoBERTa, GPT-3 모델을 비교하였다.
연구 결과, CodeGemma 모델이 F1 점수 58%, 재현율 87%로 가장 우수한 성능을 보였다. 이를 통해 최신 LLM이 소프트웨어 보안 취약점 탐지에 효과적으로 활용될 수 있음을 확인하였다.
연구팀은 LLM의 일반적인 성능이 우수하더라도 특정 소프트웨어 공학 과제에 대한 적합성을 면밀히 평가해야 한다고 강조했다. 또한 LLM의 계산 자원 요구사항과 배포 고려사항을 균형있게 다루어야 한다고 제언했다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Shaznin Sult... ב- arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.10490.pdfשאלות מעמיקות