이 연구는 LLM의 보안 취약점 식별 및 추론 능력을 종합적으로 평가하기 위해 SecLLMHolmes라는 자동화된 평가 프레임워크를 개발했다. 228개의 코드 시나리오를 구축하고 8개의 최신 LLM을 8가지 조사 차원에서 분석했다.
평가 결과, LLM은 비결정적인 응답, 잘못되거나 불충실한 추론을 제공하며, 실제 시나리오에서 성능이 저조한 것으로 나타났다. 특히 'PaLM2'와 'GPT-4'와 같은 가장 발전된 모델에서도 함수 또는 변수 이름 변경, 라이브러리 함수 추가 등의 단순한 코드 변경만으로도 각각 26%와 17%의 경우에서 잘못된 답변을 내놓는 등 강건성이 크게 부족한 것으로 드러났다.
이러한 결과는 LLM이 일반적인 보안 보조 도구로 사용되기 위해서는 더 많은 발전이 필요함을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Saad Ullah,M... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2312.12575.pdfDeeper Inquiries