핵심 개념
LLM은 취약점 탐지 및 관리, 콘텐츠 분류 및 규제 적용, 설명 가능성 및 우선순위 지정, 데이터 과제 해결, LLM 위험 완화 등 다양한 사이버 보안 문제를 해결할 수 있는 새로운 기회를 제공한다.
초록
이 논문은 LLM(Large Language Model)이 사이버 보안 분야에서 새로운 기회를 제공하는 방법을 설명한다.
-
취약점 탐지 및 관리: LLM 기반 도구들이 코드 생성, 수정, 설명 등을 통해 소프트웨어 취약점을 줄이고 있다. 또한 LLM은 프로토콜 및 코드 퍼징에 활용되어 취약점을 발견하는 데 도움을 준다.
-
콘텐츠 분류 및 규제 적용: LLM은 유해 콘텐츠 탐지, 정책 위반 탐지 및 설명, 피싱 이메일/웹페이지 탐지 등에 활용되고 있다.
-
설명 가능성 및 우선순위 지정: LLM은 보안 로그 분석, 보안 이벤트 설명, 위험 수준 평가 등을 통해 보안 분석가의 업무를 지원한다.
-
데이터 과제 해결: LLM은 데이터 증강, 합성 데이터 생성, 프라이버시 보장 등을 통해 보안 분야의 데이터 문제를 해결할 수 있다.
-
LLM 위험 완화: LLM의 악용 가능성(예: 피싱 이메일 생성, 딥페이크 제작 등)에 대응하기 위해 안전 필터, 워터마킹, 적대적 훈련 등의 방법이 연구되고 있다.
이처럼 LLM은 사이버 보안 분야에 새로운 기회를 제공하지만, 동시에 새로운 위협도 야기하고 있다. 따라서 LLM의 안전하고 책임감 있는 사용을 위한 노력이 필요하다.
통계
2023년에 약 29,000개의 CVE(Common Vulnerabilities and Exposures)가 공개되었다.
2023년 Synopsys 보고서에 따르면 고위험 취약점이 있는 코드베이스의 비율이 2022년 48%에서 2023년 74%로 증가했다.
Google의 Gemini 모델은 자사의 sanitizer 도구로 발견된 버그의 15%를 성공적으로 수정했다.
인용구
"AI-generated programs are not perfect and could also be vulnerable, but they hold promise in comparison to human developers—an empirical study by Asare et al. demonstrates less vulnerabilities introduced by AI code assistants than humans."
"LLMs pretrained on massive data offer a promising direction. As noted previously, LLMs have the capability to solve downstream tasks with a small number of labeled samples, or even without fine-tuning."
"LLMs, with their natural language interface and the ability to work with data in multiple modalities (text, images, videos, code, etc.), can help with understanding diverse data."