본 연구 논문에서는 암호화된 트래픽 분류를 위한 확장 가능한 Mixture-of-Experts(MoE) 기반의 정제된 대규모 언어 모델인 MERLOT를 제안합니다. MERLOT는 GPT-2-base를 기반으로 사전 훈련된 기반 모델의 장점을 활용하고 확장성을 보장하기 위해 MoE 아키텍처를 채택합니다. 높은 정확도를 유지하면서 계산 요구 사항을 대폭 줄이기 위해 MERLOT는 교사-학생 패러다임을 사용하여 GPT-2-base에서 모델을 추출합니다. 그런 다음 추출된 모델은 MoE 아키텍처를 통해 통합되며, 여기서 게이팅 메커니즘은 각 트래픽 분류 인스턴스를 가장 관련성이 높은 전문가 모델에 동적으로 할당합니다. 또한 MERLOT는 작업별 프롬프트 기반 워크플로우에 의존하는 기존의 생성적 분류 방법에서 벗어나 디코더의 최종 토큰을 직접 사용하여 직접 분류를 위한 순차적 정보를 집계합니다. 성능을 더욱 향상시키기 위해 프로토콜 유형 및 IP 주소와 같은 주요 메타데이터를 간결한 자연어 프롬프트 내에 포함하여 입력 데이터 표현을 보강하여 필수 의미를 유지합니다.
본 연구는 암호화된 트래픽 로그에서 트래픽 범주를 식별하는 것을 목표로 합니다. 페이로드의 의미 내용이 가려져 있기 때문에 암호화는 흐름 타이밍, 패킷 길이 및 프로토콜 헤더와 같은 메타데이터의 통계적 패턴만 남깁니다.
MERLOT는 GPT-2-base를 기반으로 하며, 여기서 각 토큰은 이전 토큰에서 점진적으로 정보를 축적하여 시퀀스의 최종 토큰이 글로벌 컨텍스트를 집계할 수 있도록 합니다. MERLOT는 작업별 교사 모델을 활용하여 학생 모델의 훈련을 안내하는 소프트 레이블을 생성합니다. 그런 다음 추출된 모델은 MoE 아키텍처를 통해 통합되며, 여기서 게이팅 메커니즘은 각 트래픽 분류 인스턴스를 가장 관련성이 높은 전문가 모델에 동적으로 할당합니다. 또한 MERLOT는 프롬프트를 구성하고 해석하는 오버헤드를 방지하여 분류 프로세스를 간소화합니다.
10개의 벤치마크 네트워크 트래픽 데이터 세트에 대한 실험 결과 MERLOT는 최첨단 모델보다 우수하거나 그에 필적하는 성능을 달성했으며, 특히 암호화되고 이기종 트래픽을 처리하는 데 탁월합니다.
MERLOT는 암호화된 트래픽 분류를 위한 확장 가능하고 효율적이며 정확한 프레임워크를 제공합니다. 모델 증류, 동적 전문가 선택 및 보강된 입력 표현을 통합하여 리소스 제약이 있는 환경에 적합합니다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yuxuan Chen,... kl. arxiv.org 11-21-2024
https://arxiv.org/pdf/2411.13004.pdfDybere Forespørgsler