대규모 데이터셋을 활용한 언어 모델 학습은 계산적으로 매우 부담이 크다. 본 논문에서는 모델 독립적인 방식으로 대규모 비지도 NLP 데이터셋의 텍스트 품질을 수치적으로 평가하는 새로운 방법을 제안한다. 이를 통해 저품질 텍스트 인스턴스를 식별하고 제거하여 언어 모델 학습의 효율성을 높일 수 있다.