Core Concepts
정교하게 학습된 LLM 모델을 사용하면 사이버범죄 대화를 정확하고 빠르며 저렴하게 번역할 수 있다.
Abstract
이 연구는 사이버범죄 대화를 효과적으로 번역하고 분석하는 방법을 제시한다. 주요 내용은 다음과 같다:
- 러시아어 해커 그룹 NoName057(16)의 공개 텔레그램 채팅 메시지 5,455개를 수집하여 데이터셋을 구축했다.
- 8개의 다양한 LLM 모델(클라우드 및 로컬 기반)과 인간 번역가를 활용하여 100개의 메시지를 번역했다.
- 가장 우수한 성능을 보인 GPT-3.5-turbo-0125 모델을 선정하고, 이를 정교하게 학습시켰다.
- 새로운 번역가 그룹을 통해 정교 학습된 모델과 기본 모델의 성능을 비교 평가했다.
- BLEU, METEOR, TER 등의 자동 평가 지표로도 모델 성능을 분석했다.
결과적으로 정교하게 학습된 LLM 모델이 기본 모델에 비해 더 나은 번역 성능을 보였다. 이를 통해 사이버범죄 대화를 빠르고 저렴하게 번역할 수 있게 되었다.
Stats
사이버범죄 대화 메시지 평균 번역 속도: 인간 번역가 2,000단어/일 대비 LLM 모델 430~23,000배 빠름
사이버범죄 대화 메시지 평균 번역 비용: 인간 번역가 0.21달러/메시지 대비 LLM 모델 430~23,000배 저렴
Quotes
"사이버범죄 대화를 이해하는 것은 사이버보안 방어에 매우 중요하다."
"기존 기계 번역 방식은 정확성, 편향성, 속도 등의 문제가 있다."
"정교하게 학습된 LLM 모델은 사이버범죄 언어의 미묘한 차이를 정확하게 포착할 수 있다."