Core Concepts
공통 크롤 데이터의 인덱스 정보를 활용하여 전체 데이터셋을 대표할 수 있는 세그먼트를 선별하고, 이를 통해 웹 분석을 효율적으로 수행할 수 있는 방법론을 제시한다.
Abstract
이 연구는 공통 크롤 데이터를 활용한 웹 분석 방법론을 개선하는 것을 목적으로 한다. 공통 크롤 데이터는 웹 과학 연구와 언어 모델 학습을 위한 대규모 데이터셋이지만, 방대한 크기로 인해 데이터 처리가 어려운 문제가 있다.
연구에서는 다음과 같은 두 가지 접근법을 제안한다:
인덱스 정보를 활용하여 각 세그먼트의 대표성을 측정하고, 가장 대표적인 세그먼트를 선별하여 전체 데이터셋을 대표할 수 있는 프록시로 활용한다. 이를 통해 전체 데이터셋을 처리하지 않고도 웹 분석을 수행할 수 있다.
마지막 수정 시간(Last-Modified) 정보를 활용하여 과거 웹 페이지의 특성을 분석한다. 이를 통해 웹 페이지 생성 방식의 변화 등 웹 진화에 대한 통찰을 얻을 수 있다.
연구 결과, 제안한 방법론을 통해 효율적으로 공통 크롤 데이터를 활용할 수 있음을 확인하였다. 특히 URI 길이 변화 분석에서 예상치 못한 통찰을 얻을 수 있었다.
Stats
2023년 9월 21일과 29일에 수집된 웹 페이지의 53%가 크롤링 시점에 생성된 것으로 나타났다.
2023년 웹 페이지의 URI 길이는 이전 연도에 비해 약간 증가했으며, 이는 주로 경로(path) 길이 증가에 기인한 것으로 확인되었다.
Quotes
"공통 크롤 데이터는 웹 과학 연구와 언어 모델 학습을 위한 대규모 데이터셋이지만, 방대한 크기로 인해 데이터 처리가 어려운 문제가 있다."
"제안한 방법론을 통해 효율적으로 공통 크롤 데이터를 활용할 수 있음을 확인하였다. 특히 URI 길이 변화 분석에서 예상치 못한 통찰을 얻을 수 있었다."