이 연구에서는 PhishGuard라는 최적화된 맞춤형 앙상블 모델을 소개한다. 이 모델은 Random Forest, Gradient Boosting, CatBoost, XGBoost 등 다양한 기계 학습 분류기를 결합하여 피싱 웹사이트 탐지 정확도를 높인다.
데이터 전처리 단계에서는 정규화와 SMOTE 기법을 사용하여 데이터셋의 균형을 맞추었다. 특징 선택 단계에서는 SelectKBest, RFECV, PCA 기법을 활용하여 최적의 특징 집합을 선별하였다.
이후 6개의 기계 학습 모델을 학습하고 평가 지표를 기반으로 순위를 매긴 뒤, 상위 4개 모델을 선택하여 PhishGuard 앙상블 모델을 구축하였다. 이 과정에서 최상위 모델을 메타 모델로, 나머지 3개 모델을 베이스 모델로 사용하는 스태킹 기법을 적용하였다.
PhishGuard는 다양한 공개 데이터셋에서 기존 최신 모델들을 뛰어넘는 성능을 보였다. 특히 Dataset 1에서 99.05%의 최고 정확도를 달성하는 등 전반적으로 우수한 결과를 나타냈다. 이는 최적화된 특징 선택과 앙상블 학습 기법이 피싱 탐지 성능 향상에 크게 기여했음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Md Sultanul ... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19825.pdfDeeper Inquiries