이 연구는 11개의 최신 대규모 언어 모델의 취약점 탐지 기능을 종합적으로 평가했다. 연구 결과에 따르면 대규모 언어 모델의 취약점 탐지 성능은 매우 제한적이었다. 모델들은 0.5-0.63의 균형 정확도를 보였으며, 76%의 경우에서 취약한 코드와 수정된 코드를 구분하지 못했다. 287개의 모델 응답을 분석한 결과, 57%에서 코드 이해, 허구, 논리, 상식 지식 등의 오류가 발견되었다. 특히 경계/null 검사 관련 오류가 많았다. 또한 모델들은 취약점의 위치, 유형, 원인을 정확하게 식별하지 못했다. DbgBench 데이터셋에서 모델들은 27개 버그 중 6개만 정확하게 위치를 찾아냈으며, 이 6개 버그는 최소 70%의 인간 참여자들이 정확하게 진단했다. 이러한 결과는 현재 대규모 언어 모델이 보안 관련 코드 구조와 개념을 제대로 이해하지 못함을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Benjamin Ste... at arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17218.pdfDeeper Inquiries