이 논문은 대규모 다국어 지리적 웹 말뭉치 생성 과정에서의 의사결정이 미치는 영향을 조사한다. 언어 식별 시스템의 합의, 해시 기반 중복 제거, 위치 특정 이상치 탐지 등의 방법을 통해 말뭉치의 품질을 개선하고, 이를 기준 데이터와 비교하여 평가한다.