이 연구는 npm 생태계의 악성코드 탐지를 위해 대형 언어 모델(LLM)을 활용하는 방법을 제안한다. 연구팀은 SocketAI Scanner라는 다단계 의사결정 워크플로우를 개발했으며, 이는 반복적인 자기 개선 및 제로샷 역할 수행 체인 사고(CoT) 프롬프팅 기술을 활용한다.
연구팀은 5,115개의 npm 패키지(2,180개의 악성 패키지 포함)를 분석하고 GPT-3 및 GPT-4 모델과 정적 분석 도구의 성능을 비교했다. 연구 결과, GPT 모델은 정적 분석 도구에 비해 정밀도 25% 이상, F1 점수 15% 이상 향상된 성능을 보였다. GPT-3 모델은 정밀도 91%, F1 점수 94%를 달성했으며, GPT-4 모델은 정밀도 99%, F1 점수 97%로 더 우수한 성능을 보였다. 그러나 GPT-4 모델의 운영 비용은 GPT-3 모델에 비해 16배 더 높아, GPT-3 모델이 성능과 비용 면에서 균형 잡힌 선택이 될 수 있다.
연구팀은 LLM이 데이터 유출, 백도어, 의심스러운 도메인 연결 등 다양한 유형의 악성코드를 효과적으로 탐지할 수 있음을 확인했다. 또한 패키지.json 파일의 이상 징후도 잘 탐지했다. 이를 통해 LLM이 악성코드 탐지에 효과적으로 활용될 수 있음을 보여주었다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Nusrat Zahan... um arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12196.pdfTiefere Fragen