核心概念
대규모 텍스트 데이터에서 노이즈에 강한 중복 제거 방법을 개발하고 평가한다.
摘要
이 연구는 대규모 텍스트 데이터에서 중복 문서를 효과적으로 식별하는 방법을 제안한다.
역사적 뉴스 기사를 활용하여 27,210개의 문서와 122,876개의 중복 쌍으로 구성된 NEWS-COPY 데이터셋을 구축했다. 이를 통해 대규모 데이터에서 중복을 식별하는 방법을 체계적으로 평가할 수 있다.
해시 기반 방법과 N-gram 중복 검사 방법, 그리고 신경망 기반 방법(bi-encoder, re-ranking)을 비교했다. 신경망 기반 방법이 기존 방법보다 크게 향상된 성능을 보였다.
신경망 기반 방법은 대규모 데이터에서도 효율적으로 중복을 식별할 수 있다. 단일 GPU로 1,000만 개 문서를 11시간 45분 만에 처리할 수 있다.
신경망 모델을 C4 데이터셋의 뉴스 기사와 특허 데이터에 적용한 결과, 해시 기반 방법이 놓치는 다양한 형태의 노이즈가 있는 중복 문서를 식별할 수 있다.
統計資料
중복 문서 쌍의 3-gram 자카드 유사도 평균은 30%이다.
중복 문서 쌍의 19%는 10-gram이 하나도 겹치지 않는다.
중복 문서 쌍의 31%는 15-gram이 하나도 겹치지 않는다.
引述
"by the 1910s and 1920s, most of the articles that Americans read in their local papers had either been bought or sold on the national news market... This constructed a broadly understood American 'way of life' that would become a touchstone of U.S. domestic politics and international relations throughout the twentieth century."
"Further work is yet needed to better understand the role of test set leakage in the performance of LMs."