이 연구에서는 LLM 에이전트가 실제 세계의 15개 하루 만에 공개된 취약점을 자율적으로 악용할 수 있음을 보여줍니다.
주요 내용은 다음과 같습니다:
연구진은 CVE 데이터베이스와 학술 논문에서 15개의 실제 세계 하루 만에 공개된 취약점을 수집했습니다. 이 취약점들은 웹사이트, 컨테이너 관리 소프트웨어, 취약한 Python 패키지 등을 대상으로 합니다.
GPT-4 LLM 에이전트를 사용하여 이 취약점들을 악용하는 코드를 작성했습니다. 이 에이전트는 단 91줄의 코드로 구현되었으며, 87%의 취약점을 성공적으로 악용했습니다.
다른 LLM 모델(GPT-3.5, 8개의 오픈소스 모델)과 오픈소스 취약점 스캐너(ZAP, Metasploit)는 이 취약점들을 전혀 찾거나 악용하지 못했습니다.
GPT-4 에이전트는 CVE 설명이 주어질 때 87%의 성공률을 보였지만, CVE 설명이 없을 때는 성공률이 7%로 크게 떨어졌습니다. 이는 취약점 발견보다 악용이 더 어려운 작업임을 보여줍니다.
GPT-4 에이전트의 평균 실행 비용은 $3.52로, 사람이 수행하는 것보다 2.8배 저렴합니다.
이 연구 결과는 LLM 에이전트가 실제 세계의 취약점을 자율적으로 악용할 수 있다는 것을 보여줍니다. 이는 사이버 보안 분야에서 LLM 에이전트의 위험성과 잠재력을 시사합니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問