이 논문은 DomainHarvester라는 시스템을 소개한다. DomainHarvester는 인기가 많지 않지만 신뢰할 수 있는 웹 도메인을 체계적이고 동적으로 수집하여 허용 목록을 생성하는 것을 목표로 한다.
기존의 허용 목록 생성 방식은 웹사이트의 인기도에 크게 의존하여 방문이 적은 정당한 도메인을 간과하는 문제가 있었다. DomainHarvester는 웹의 하이퍼링크 구조를 활용하는 혁신적인 bottom-up 방식을 채택하여 이러한 문제를 해결한다.
DomainHarvester는 시드 URL을 사용하여 도메인 이름을 수집하고, 기계 학습 모델과 Transformer 기반 언어 모델을 활용하여 신뢰성을 평가한다. 이를 통해 전 세계적으로 적용 가능한 허용 목록과 지역 중심의 허용 목록을 생성한다. 기존 6개 상위 목록과 비교했을 때 DomainHarvester의 허용 목록은 중복이 매우 적으면서도(전 세계 4%, 지역 0.1%) 악성 도메인 포함 위험을 크게 낮추는 것으로 나타났다.
이 연구는 인기가 많지 않지만 신뢰할 수 있는 도메인에 대한 간과된 측면을 조명하고, DomainHarvester라는 기존 인기 기반 지표를 넘어서는 시스템을 소개함으로써 중요한 기여를 한다. 이 방법론은 허용 목록의 포괄성과 정확성을 높여 전 세계 사용자와 기업, 특히 비영어권 지역에 상당한 이점을 제공한다.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Daiki Chiba,... às arxiv.org 10-04-2024
https://arxiv.org/pdf/2410.02097.pdfPerguntas Mais Profundas